Objectif du cours
Le cours étudie la modélisation de données en grande dimension à travers la physique statistiques et la théorie de l’information. Il s’agit d’estimer et d’échantillonner des distributions de probabilités de données en grande dimension, à partir d’un nombre limité d’exemples. Les applications concernent l’inférence de modèles, la génération de nouvelles données ou la compression, ainsi que la résolution de problèmes inverses.
La physique statistique a révolutionné la physique, en montrant comment les lois macroscopiques en thermodynamique ou en mécanique résultent des statistiques des interactions de particules microscopiques. La théorie de l’information démontre que cette perspective apporte les bases conceptuelles de la modélisation de données, à travers les notions d’entropie, d’énergie de Gibbs et de dépendances locales.
Le cours introduit les ensembles micro et macro-canoniques de la physique statistiques, qui font le lien entre les distributions de probabilités et les mesures d’énergie, d’entropie et les variables duales comme la température. Les propriétés macroscopiques émergent à travers des phénomènes de concentration, qui définissent les ensembles typiques de la théorie de l’information. Les modèles la physique statistique sont le plus souvent des distributions de probabilités exponentiels, qui sont aussi au cœur de la modélisation de données par maximisation d’entropie.
Modéliser en grande dimension nécessite d’approximer une distribution de probabilité avec un nombre de paramètres aussi réduit que possible, afin de pouvoir les estimer avec des observations limitées. Cette réduction de dimensionnalité peut se faire avec des modèles de Markov, qui imposent une dépendance conditionnelle locale, souvent vérifiée en physique. La factorisation de Hammersley-Clifford montre que le calcul de probabilités en grande dimension est alors réduit à des estimations locales en petite dimension. On verra des applications et les limites de ces modèles pour le traitement d’images. On étudiera aussi le modèle d’Ising des solides paramagnétiques, qui fait apparaître une transition de phases liée à l’apparition de non-convexité lorsque la température baisse.
Le passage du micro au macroscopique se comprend mieux par étapes successives à travers les échelles. Les dépendances multi-échelles des champs physiques, des images et des sons, se représentent sur des coefficients d’ondelettes. Cela permet de construire des modèles de grande dimension, basés sur des dépendances multi-échelles locales. Ils capturent des interactions globales, produisant ainsi des modèles beaucoup plus riches. On abordera la théorie du groupe de renormalisation de Wilson, par le prisme de ces dépendances multi-échelles, en montrant que l’analyse de données apporte aussi de nouvelles perspectives pour la physique statistique.
Organisation des séances
Mode de validation
Le cours est validé par un projet sur l’un des challenges proposé par le site challenge.data.ens.fr