event_img

Séminaire

Webinaire formats de stockage pour le Deep Learning en Python

Sébastien Gardoll

Le groupe ESPRI-IA qui a pour but de promouvoir l’entraide technique et méthodologique sur l’IA, a le plaisir de vous annoncer son troisième séminaire sur une étude des formats de stockage Python (Numpy, HDF5 et Zarr) et des codecs de compression (lz4, zstd, blosc, etc.) pour la gestion de grands datasets d’entraînement en Deep Learning.

       

Date de début 24/05/2023 11:00
Date de fin 24/05/2023
Organisateur Sébastien Gardoll
Lieu plateforme BBB du CNRS

Description

Les modèles Deep Learning ont la réputation de nécessiter un grand volume de données or les moyens de stockage ne sont pas infinis. À cet effet, les centres de calcul imposent des quotas en nombre de fichiers et volume de données. De plus, téléverser un grand volume de données sur ces centres prend du temps et des ressources réseau partagées entre toutes et tous.

Afin de faire face à ces contraintes, le choix du format de stockage, de la compression et de l’indexation de l’information sont importants d’autant plus que les données d’entraînement sont lues un grand nombre de fois lors d’un entraînement (epoch).

Ce webinaire se concentre sur l’optimisation du volume de données (matrices multidimensionnelles en float32), le nombre de fichiers et le coût de lecture aléatoire de la donnée (overhead), à l’aide de formats de stockage classiques du monde Python (Numpy, HDF5 et Zarr) et des codecs de compression sans perte (lz4, zstd, blosc, etc.) afin de rester généraliste. Il présentera rapidement ces formats de stockage, leur notion de chunking (accès à des portions de données) et une série d’expériences numériques dont le but est déterminer les meilleurs couple formats et codecs de compression.

Informations supplémentaires

Webinaire sur la plateforme BBB du CNRS :

Adresse webinaire : https://orsay.bbb.cnrs.fr/b/gar-a1g-lxw-7ku
Mot de passe : 281439