Glossaire de l’infrastructure IA

Silicon

HBM: Mémoire à haute bande passante, empilée au plus près du die GPU. C'est elle — et non les FLOPS — qui fixe le plafond de débit en génération LLM.
Approfondir : HBM et NVLink →
NVLink: Interconnexion propriétaire NVIDIA reliant plusieurs GPU à très haute bande passante. Dès qu'un modèle déborde un GPU, NVLink devient un prolongement de la mémoire.
Approfondir : HBM et NVLink →
Bande passante mémoire: Le débit auquel un GPU lit sa mémoire. En inférence autorégressive, c'est le facteur limitant : chaque token relit l'intégralité des poids et du KV cache.
Approfondir : HBM et NVLink →
Tensor Core: Unités de calcul matriciel spécialisées des GPU NVIDIA. Leur génération détermine les formats numériques pris en charge — et donc le débit réellement accessible.
Approfondir : H100 vs B100 →
FP8: Format à virgule flottante sur 8 bits. Format de travail polyvalent de l'inférence et de l'entraînement, pris en charge de Hopper à Blackwell.
Approfondir : FP8, FP6, FP4 →
FP4 (MXFP4 / NVFP4): Format à virgule flottante sur 4 bits, frontière 2026 de l'inférence à haut débit. Les variantes à blocs partagent une échelle par groupe de valeurs.
Approfondir : FP8, FP6, FP4 →
Blackwell: Architecture GPU NVIDIA succédant à Hopper. Apporte le FP4 natif, davantage de mémoire HBM3e et un moteur Transformer de 2ᵉ génération.
Approfondir : H100 vs B100 →

KV cache: La mémoire de l'historique d'un LLM : un vecteur clé et un vecteur valeur par token déjà vu, à chaque couche. Croît linéairement avec le contexte et le batch.
Approfondir : KV cache →
PagedAttention: Gestion du KV cache par blocs de taille fixe, comme la mémoire virtuelle d'un système d'exploitation. Élimine la fragmentation ; introduite par vLLM.
Approfondir : KV cache →
Prefix caching: Réutilisation du KV cache d'un préfixe commun — system prompt, exemples few-shot — au lieu de le recalculer à chaque requête.
Approfondir : KV cache →
Quantification (GGUF): Réduction du nombre de bits par poids pour faire tenir un modèle en mémoire. En local, Q4_K_M reste le compromis de référence entre taille et qualité.
Approfondir : llama.cpp et GGUF →
Batching continu: Ordonnancement à l'itération qui ajoute et retire des requêtes du batch en continu, au lieu d'attendre qu'un batch entier se termine. Cœur du débit de vLLM.
Approfondir : vLLM vs llama.cpp vs TensorRT-LLM →
Prefill / Decode: Les deux phases d'une requête LLM : le prefill traite le prompt d'un coup (intensif en calcul), le decode génère token par token (limité par la mémoire).
Approfondir : HBM et NVLink →

NPU: Circuit dédié à l'inférence de réseaux de neurones. Très efficace en énergie sur les opérateurs câblés, rigide en dehors de ce périmètre.
Approfondir : NPU vs GPU à l’edge →
Mémoire unifiée: Architecture où CPU et GPU partagent la même RAM physique, courante en embarqué (Jetson). Évite les copies, mais impose une enveloppe mémoire commune à tout le système.
Approfondir : Jetson Orin et edge AI →
TOPS: Trillions d'opérations par seconde — la métrique marketing des accélérateurs edge. Utile comme ordre de grandeur, trompeuse comme unique critère de choix.
Approfondir : Jetson Thor, Hailo-10H, Coral →

Coût par token: Le coût réel de l'inférence : location ou amortissement du GPU, électricité, exploitation, divisés par les tokens réellement produits. L'utilisation en est le facteur dominant.
Approfondir : Coût d’inférence LLM →
LLMflation: La chute du coût de l'inférence pour une capacité équivalente — environ 10× par an entre 2021 et 2025, en ralentissement vers ~3–5× par an.
Approfondir : Coût d’inférence LLM →
eBPF: Mécanisme du noyau Linux permettant d'exécuter des programmes vérifiés attachés à des événements système. Outil d'observabilité du côté hôte d'une stack d'inférence.
Approfondir : eBPF et perf →