Logo Sciencesconf

Méthodes et outils pour l'apprentissage automatique de bioaérosols et la gestion ouverte des données

Emmanuel Delage  1@  , Marceau Larouere  2  , Régis Dupuis  2  , Jean-Luc Baray  1, 2  , Pierre Amato  3  , Evelyn Freney  2  

1 : Observatoire de Physique du Globe de Clermont-Ferrand
Institut National des Sciences de l'Univers, Centre National de la Recherche Scientifique, Université Clermont Auvergne, Centre National de la Recherche Scientifique : UAR833

2 : Laboratoire de Météorologie Physique
Institut National des Sciences de l'Univers, Centre National de la Recherche Scientifique, Université Clermont Auvergne, Institut National des Sciences de l'Univers : UMR6016, Centre National de la Recherche Scientifique : UMR6016, Université Clermont Auvergne : UMR6016

3 : Laboratoire Microorganismes : Génome et Environnement
Centre National de la Recherche Scientifique, Université Clermont Auvergne, Centre National de la Recherche Scientifique : UMR6023, Université Clermont Auvergne : UMR6023

Pour les mesures temps-réel des bioaérosols dans l'atmosphère, un instrument SwisensPoleno Jupiter est en fonctionnement au chalet de l'OPGC au sommet du Puy de Dôme. Ce système collecte un couple d'images holographiques et des mesures spectrales de fluorescence pour chaque acquisition. Cette grande masse de données doit être analysée afin d'étudier l'impact des spores fongiques (un type de bioaérosol) sur l'agriculture. L'équipe Poleno du LaMP/OPGC a mis en place un workflow d'apprentissage automatique supervisé afin d'atteindre cet objectif. Le projet bénéficie du soutien technique du mésocentre de l'UCA à travers les ressources en stockage S3 (35To), et au moyen d'un cluster de calcul. Les développements sont effectués et testés en local, puis exécutés sur le cluster de calcul au moyen de scripts Slurm ou via le serveur Jupyter au mésocentre. Etapes du worflow : -Constitution de jeux de données d'entrainement : extraction de données brutes horodatées du stockage S3, et étude d'UMAP pour la visualisation des données et la réduction de dimension, -Préparation des jeux de données pour l'entrainement, -Mise en œuvre de différents modèles d'apprentissage automatique, (CNN, MLP/DNN...) pour les images concaténées avec les données spectrales, - Entraînement, sauvegarde interopérable du réseau de neurone entrainé, tests et analyse. Le code source polenofs est public sur la forge SourceSup de RENATER. A terme, les données, le code source et les modèles seront référencés par un ou plusieurs DOI DataCite de l'OPGC via l'INIST du CNRS. Ces données seront déposées dans l'entrepôt des données de la recherche de l'OPGC et enregistrées dans le géo-catalogue de l'OPGC moissonné par data.gouv.fr.

Type : : Présentation

Thématiques : Intelligence Artificielle

Mots-Clés : Gestion des données

Chargement... Chargement...