Foundations of Large Language Models
N. FIJALKOW, D. LOUAPRE
Deep LearningLearningNatural Language Processing

Prè-requis

Le cours nécessite de maîtriser de Python et Pytorch, ainsi que des bases d’algèbre linéaire et d’optimisation.

Objectif du cours

L’objectif de ce cours est de fournir les bases théoriques et pratiques nécessaires à la compréhension des grands modèles de langage (LLMs). Ce cours décortique l’architecture Transformer sous un angle mathématique et algorithmique. Nous aborderons le cycle de vie complet d’un modèle : du choix de la tokenisation aux lois d’échelle (scaling laws), en passant par l’entraînement auto-supervisé et les techniques d’alignement (RLHF, DPO).
Le cours met un accent particulier sur l’efficacité computationnelle (attention optimisée, quantification) et sur les capacités émergentes de ces modèles. À l’issue de ce cours, les étudiants seront capables de comprendre les enjeux de la recherche actuelle en LLM et de développer des modèles.

Organisation des séances

Le cours n’est pas ouvert aux auditeurs externes.

Chaque session dure 3h répartie en 1h30 de cours magistral et 1h30 de TD.

Session 1 : L’ère des Large Language Models
  •  Historique : des RNNs aux
  • Le paradigme de l’apprentissage auto-supervisé (self-supervised learning).
  • L’écosystème actuel : modèles ouverts (Llama, Mistral) vs modèles propriétaires.
  • Tokenisation : BPE, WordPiece, et l’impact du vocabulaire sur la
Session 2 : L’architecture Transformer en profondeur 
  • Mécanisme d’attention : self-attention, multi-head attention (calcul matriciel et complexité).
  • Composants critiques : layer normalization (pre-norm vs post-norm), residual
  • Embeddings de position : sinusoïdaux vs appris vs RoPE (Rotary Positional Embeddings).
Session 3 : Entraînement et lois d’échelle (scaling laws) 
  • Objectifs d’apprentissage : causal language modeling (GPT) vs masked language modeling (BERT).
  • Lois d’échelle de Kaplan et de Chinchilla : optimiser le compute vs la donnée.
  • Gestion des grands corpus de données : qualité, déduplication et
Session 4 : Optimisation et efficacité du calcul 
  • Mémoire et compute : Le goulot d’étranglement de l’attention (complexité quadratique).
  • Optimisations modernes : FlashAttention, Multi-Query Attention (MQA), Grouped-Query Attention (GQA).
  • Précision numérique : FP16, BF16, et techniques de quantification (4-bit, 8-bit).
Session 5 : Adaptation et fine-tuning (PEFT) 
  • Fine-tuning complet vs Parameter-Efficient Fine-Tuning (PEFT).
  • Méthodes de bas rang : LoRA (Low-Rank Adaptation) et ses variantes (QLoRA).
  • Prompt engineering et In-context learning : comment le modèle « apprend » à partir d’exemples dans le contexte.
Session 6 : Alignement et préférences humaines 
  • Pourquoi l’alignement ? (Utilité, Honnêteté, Inoffensivité).
  • RLHF (Reinforcement Learning from Human Feedback) : reward models et
  • Alternatives modernes : DPO (Direct Preference Optimization) et
  • Instruction tuning : transformer un modèle de base en
Session 7 : Augmentation et capacités de raisonnement 
  • Retrieval Augmented Generation (RAG) : architecture, bases de données vectorielles et recherche sémantique.
  • Raisonnement : Chain-of-Thought (CoT), Self-Consistency, et Tree of
  • Agents et utilisation d’outils (Tool use / Function calling).
Session 8 : Évaluation, interprétabilité et futurs 
  • Benchmarks de performance (MMLU, HumanEval) et leurs limites (contamination).
  • Interprétabilité mécaniste : Comprendre ce qui se passe à l’intérieur des
  • Au-delà du Transformer : State Space Models (Mamba) et architectures

Mode de validation

L’évaluation se fera par deux devoirs à la maison et une soutenance de projet finale lors d’une 9ème session.

Références

  • Attention is All You Need (Vaswani et , 2017)
  • Language Models are Few-Shot Learners (Brown et al., 2020)
  • Training Compute-Optimal Large Language Models (Chinchilla paper, Hoffmann et al., 2022)
  • Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al., 2023)
  • FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (Dao et al., 2022)
Les intervenants

Nathanaël FIJALKOW

(CNRS, LaBRI)

David LOUAPRE

(HuggingFace)

voir les autres cours du 1er semestre