event_img

Soutenance de thèse

Ségolène CROSSOUARD

LSCE

Machine learning pour la modélisation du climat : potentiel et écueils

Date 03/07/2025 13:30
Diplôme Université Paris-Saclay
Lieu Amphithéâtre Claude Bloch, CEA Paris-Saclay, Site de l'Orme des Merisiers, 91191 Gif-sur-Yvette

Résumé

Machine learning pour la modélisation du climat : potentiel et écueils

Un modèle de circulation générale atmosphérique contient à la fois une partie dynamique résolvant les équations de la mécanique des fluides atmosphériques et une partie dite « physique » regroupant les représentations de processus sous-maille ou complémentaires à la dynamique atmosphérique (par exemple : rayonnement, nuages, turbulence, précipitation). Ces représentations sont nommées paramétrisations. Fondées sur des approches heuristiques, phénoménologiques et empiriques, ces paramétrisations requièrent un temps de calcul conséquent. L’essor des techniques de machine learning ouvre de nouvelles voies pour représenter ces processus physiques. Notamment, le développement d’émulateurs basés sur des architectures de réseaux de neurones permet de remplacer partiellement ou totalement les paramétrisations existantes d’un modèle. Il est démontré que l’utilisation de ce type de technique améliore les performances de calcul.

Ma thèse s’inscrit pleinement dans ce cadre comme en témoigne la problématique qu’elle explore, à savoir : dans quelle mesure est-il possible de développer un émulateur robuste, rapide et précis des paramétrisations physiques du modèle de l’IPSL ? Ce travail repose sur des simulations numériques réalisées à partir de la composante atmosphérique nommée ICOLMDZ (pour DYNAMICO et LMDZ) du modèle de climat développé par l’Institut Pierre-Simon Laplace (IPSL). Ces simulations sont effectuées sur une configuration idéalisée de type aquaplanète et également sur une configuration réaliste. Après avoir défini le problème d’apprentissage, construit les jeux de données et prétraités les données, plusieurs architectures de réseaux de neurones ont été développés et testés, en mode offline, dans le but d’émuler la totalité des paramétrisations, i.e. la composante de la physique atmosphérique LMDZ. Les premiers résultats d’émulation ont mis en exergue les facilités des émulateurs à reproduire fidèlement la physique de notre modèle, mais également les difficultés qu’ils ont rencontrées, notamment en termes de représentation de la variabilité. Cela a conduit à une étude approfondie des processus physiques en jeu, mettant ainsi en lumière l’origine des difficultés auxquelles se heurtent nos émulateurs. En conséquence, de nouveaux prédicteurs ont été intégrés dans le processus d’apprentissage dans le but d’apporter une certaine connaissance physique à l’émulateur. Cette nouvelle contribution s’est révélée être bénéfique pour la qualité de nos résultats. Cependant, l’utilisation de tels émulateurs pour remplacer les paramétrisations soulève des questions fondamentales notamment en termes de généralisation du processus d’émulation à des conditions météorologiques qui n’ont pas été vues par l’émulateur. Cette question, qui porte sur la capacité des émulateurs à inférer et à s’adapter à de nouveaux états du système, a été étudiée dans le cadre d’expériences liées au changement climatique. Les résultats s’avèrent prometteurs et illustrent le rôle important des variables physiques latentes ajoutées.

Cette thèse met en évidence le potentiel que présente l’utilisation d’un émulateur pour remplacer les paramétrisations physiques de la composante atmosphérique ICOLMDZ. Il a notamment été démontré que l’ajout de connaissances physiques dans le processus d’apprentissage améliore les résultats, ce qui suggère un approfondissement sur la contribution de nouveaux prédicteurs physiques. Finalement, cette étude encourage le couplage d’un des émulateurs avec DYNAMICO afin d’évaluer au mieux la pertinence du processus d’apprentissage tout en analysant la stabilité des simulations obtenues.

 

 


Potential and pitfalls of using machine learning in climate modelling

An atmospheric general circulation model contains both a dynamics part, which solves the equations of atmospheric fluid mechanics, and a component commonly referred to as « physics », which includes representations of sub-grid or complementary processes to atmospheric dynamics (e.g. radiation, clouds, turbulence, precipitation). These representations are called parameterizations. Based on heuristic, phenomenological and empirical approaches, these parameterizations require considerable computing resources. The rise of machine learning techniques opens up new ways to represent these physical processes. In particular, the development of emulators based on neural networks enables partial or total substitution of the existing parameterizations of a model. It has been demonstrated that the use of such techniques improves computational efficiency.

My thesis is fully aligned with this framework, as illustrated by the research question it investigates, namely: to what extent is it possible to develop a robust, fast and accurate emulator of the physical parameterizations of the IPSL model? This work is based on numerical simulations carried out using the atmospheric component named ICOLMDZ (for DYNAMICO and LMDZ) of the climate model developed by the Institut Pierre-Simon Laplace (IPSL). These simulations are performed on an idealized aquaplanet configuration, as well as on a realistic setup. After defining the learning problem, building the datasets, and preprocessing the data, several neural network architectures were developed and tested, in offline mode, with the aim of emulating all the parameterizations, i.e. the LMDZ atmospheric physics component. The initial results of the emulation have revealed the ease to faithfully reproduce the physics of our model, but also the difficulties they faced, particularly in terms of representing variability. This led to a thorough study of the physical processes involved, thus identifying the origin of the difficulties encountered by our emulators. Consequently, new predictors were integrated into the learning process in order to add physical knowledge to the emulator. This new contribution proved to be beneficial for the quality of our results. However, the use of such emulators to replace parameterizations raises fundamental questions, particularly in terms of the generalization of the emulation process to meteorological conditions not seen by the emulator. This question, which relates to the ability of emulators to infer and adapt to new system states, has been studied in experiments linked to climate change. The results are promising and demonstrate the crucial role of added physical latent variables.

This thesis highlights the potential of using an emulator to replace the physical parameterizations of the atmospheric component ICOLMDZ. In particular, it has been shown that adding physical knowledge into the learning process improves results, which suggests a deeper investigation into the contribution of new physical predictors. Finally, this study encourages the coupling of emulators with DYNAMICO in order to best assess the relevance of the learning process, while analyzing the stability of the simulations obtained.

Informations supplémentaires

Lieu
Amphithéâtre Claude Bloch, CEA Paris-Saclay, Site de l’Orme des Merisiers, 91191 Gif-sur-Yvette

Visio
https://cnrs.zoom.us/j/94941147968?pwd=Wexo0JEUGtq9J2Jon9TAaVeRBu7uOE.1

Composition du jury

  • Chantal STAQUET, Professeure des universités, Université Grenoble Alpes – Rapportrice
  • David SALAS Y MELIA, Ingénieur en Chef des Ponts, des Eaux et des Forêts, CNRM – Rapporteur
  • Julie DESHAYES, Directrice de recherche CNRS, LOCEAN-IPSL – Examinatrice
  • Thomas ROMARY, Enseignant-chercheur, Mines Paris PSL – Examinateur
  • Masa KAGEYAMA, Directrice de recherche CNRS, LSCE-IPSL – Directrice de thèse
  • Mathieu VRAC, Directeur de recherche CNRS, LSCE-IPSL – Co-directeur de thèse
  • Thomas DUBOS, Professeur École Polytechnique, LMD-IPSL – Co-directeur de thèse