Apprentissage et génération par échantillonnage de probabilités

S. MALLAT

Machine LearningModelling

Objectif du cours

La modélisation de données de grandes dimensions est essentiellement probabiliste, et on expliquera pourquoi. L’apprentissage de modèles probabilistes, l’inférence et la génération de nouvelles données nécessitent d’échantillonner ces distributions de probabilités. Des résultats impressionnants sont obtenus avec des modèles probabilistes paramétrés par des réseaux de neurones, pour la génération d’images, de sons, de textes ou de champs physiques.

Le cours introduit le cadre mathématique de l’apprentissage et de l’inférence statistique par méthode de Monte Carlo, ainsi que la génération probabiliste. La méthode de Monte-Carlo approxime des intégrales en sommant des variables aléatoires indépendantes, dont la distribution de probabilité est ajustée. On considère les modèles de champs de Markov, qui explicitent l’indépendance conditionnelle de variables, et sont caractérisés par des énergies de Gibbs. Le cours présente les algorithmes d’échantillonnage de distribution de probabilités, basées sur des chaines de Markov, et notamment l’algorithme de Metropolis-Hasting et l’échantillonnage de Gibbs. On aborde ensuite l’échantillonnage par l’équation de Langevin, issue de l’équation de Fokker-Planck. Le cours se termine par une présentation des algorithmes de génération par score-diffusion, qui permettent d’échantillonner des distributions de probabilités complexes, en estimant le score avec des réseaux de neurones.

La génération de données : de Markov jusqu’aux réseaux de neurones

SITE WEB : https://www.college-de-france.fr/site/stephane-mallat/

Organisation des séances

Le cours aura lieu du 17 Janvier jusqu’au 13 Mars, de 9h30 à 12h15, dans l’amphithéâtre Navarre du Collège de France.

Une séance de cours de 9h30 à 11h00 est suivie d’une présentation par un chercheur d’un domaine de recherche en lien avec le cours.

Le cours est en Français.

Mode de validation

Le cours est validé par un projet sur l’un des challenges proposé par le site challenge.data.ens.fr . L’examen est un oral qui a lieu le 20 Mars, avec la remise d’un rapport.

Les intervenants

Stéphane MALLAT

(ENS Ulm / Collège de France)

voir les autres cours du 2nd semestre