Glossaire
Glossaire de l’infrastructure IA
Les 19 notions qui reviennent dans tous les dossiers LeCompute — chacune définie en clair, et reliée à l'analyse qui la creuse.
Silicon
- HBM
-
Mémoire à haute bande passante, empilée au plus près du die GPU. C'est elle — et non les FLOPS — qui fixe le plafond de débit en génération LLM.
Approfondir : HBM et NVLink → - NVLink
-
Interconnexion propriétaire NVIDIA reliant plusieurs GPU à très haute bande passante. Dès qu'un modèle déborde un GPU, NVLink devient un prolongement de la mémoire.
Approfondir : HBM et NVLink → - Bande passante mémoire
-
Le débit auquel un GPU lit sa mémoire. En inférence autorégressive, c'est le facteur limitant : chaque token relit l'intégralité des poids et du KV cache.
Approfondir : HBM et NVLink → - Tensor Core
-
Unités de calcul matriciel spécialisées des GPU NVIDIA. Leur génération détermine les formats numériques pris en charge — et donc le débit réellement accessible.
Approfondir : H100 vs B100 → - FP8
-
Format à virgule flottante sur 8 bits. Format de travail polyvalent de l'inférence et de l'entraînement, pris en charge de Hopper à Blackwell.
Approfondir : FP8, FP6, FP4 → - FP4 (MXFP4 / NVFP4)
-
Format à virgule flottante sur 4 bits, frontière 2026 de l'inférence à haut débit. Les variantes à blocs partagent une échelle par groupe de valeurs.
Approfondir : FP8, FP6, FP4 → - Blackwell
-
Architecture GPU NVIDIA succédant à Hopper. Apporte le FP4 natif, davantage de mémoire HBM3e et un moteur Transformer de 2ᵉ génération.
Approfondir : H100 vs B100 →
Runtimes
- KV cache
-
La mémoire de l'historique d'un LLM : un vecteur clé et un vecteur valeur par token déjà vu, à chaque couche. Croît linéairement avec le contexte et le batch.
Approfondir : KV cache → - PagedAttention
-
Gestion du KV cache par blocs de taille fixe, comme la mémoire virtuelle d'un système d'exploitation. Élimine la fragmentation ; introduite par vLLM.
Approfondir : KV cache → - Prefix caching
-
Réutilisation du KV cache d'un préfixe commun — system prompt, exemples few-shot — au lieu de le recalculer à chaque requête.
Approfondir : KV cache → - Quantification (GGUF)
-
Réduction du nombre de bits par poids pour faire tenir un modèle en mémoire. En local, Q4_K_M reste le compromis de référence entre taille et qualité.
Approfondir : llama.cpp et GGUF → - Batching continu
-
Ordonnancement à l'itération qui ajoute et retire des requêtes du batch en continu, au lieu d'attendre qu'un batch entier se termine. Cœur du débit de vLLM.
Approfondir : vLLM vs llama.cpp vs TensorRT-LLM → - Prefill / Decode
-
Les deux phases d'une requête LLM : le prefill traite le prompt d'un coup (intensif en calcul), le decode génère token par token (limité par la mémoire).
Approfondir : HBM et NVLink →
Edge AI
- NPU
-
Circuit dédié à l'inférence de réseaux de neurones. Très efficace en énergie sur les opérateurs câblés, rigide en dehors de ce périmètre.
Approfondir : NPU vs GPU à l’edge → - Mémoire unifiée
-
Architecture où CPU et GPU partagent la même RAM physique, courante en embarqué (Jetson). Évite les copies, mais impose une enveloppe mémoire commune à tout le système.
Approfondir : Jetson Orin et edge AI → - TOPS
-
Trillions d'opérations par seconde — la métrique marketing des accélérateurs edge. Utile comme ordre de grandeur, trompeuse comme unique critère de choix.
Approfondir : Jetson Thor, Hailo-10H, Coral →
Coûts & système
- Coût par token
-
Le coût réel de l'inférence : location ou amortissement du GPU, électricité, exploitation, divisés par les tokens réellement produits. L'utilisation en est le facteur dominant.
Approfondir : Coût d’inférence LLM → - LLMflation
-
La chute du coût de l'inférence pour une capacité équivalente — environ 10× par an entre 2021 et 2025, en ralentissement vers ~3–5× par an.
Approfondir : Coût d’inférence LLM → - eBPF
-
Mécanisme du noyau Linux permettant d'exécuter des programmes vérifiés attachés à des événements système. Outil d'observabilité du côté hôte d'une stack d'inférence.
Approfondir : eBPF et perf →