Silicon

HBM

Mémoire à haute bande passante, empilée au plus près du die GPU. C'est elle — et non les FLOPS — qui fixe le plafond de débit en génération LLM.

Approfondir : HBM et NVLink →
NVLink

Interconnexion propriétaire NVIDIA reliant plusieurs GPU à très haute bande passante. Dès qu'un modèle déborde un GPU, NVLink devient un prolongement de la mémoire.

Approfondir : HBM et NVLink →
Bande passante mémoire

Le débit auquel un GPU lit sa mémoire. En inférence autorégressive, c'est le facteur limitant : chaque token relit l'intégralité des poids et du KV cache.

Approfondir : HBM et NVLink →
Tensor Core

Unités de calcul matriciel spécialisées des GPU NVIDIA. Leur génération détermine les formats numériques pris en charge — et donc le débit réellement accessible.

Approfondir : H100 vs B100 →
FP8

Format à virgule flottante sur 8 bits. Format de travail polyvalent de l'inférence et de l'entraînement, pris en charge de Hopper à Blackwell.

Approfondir : FP8, FP6, FP4 →
FP4 (MXFP4 / NVFP4)

Format à virgule flottante sur 4 bits, frontière 2026 de l'inférence à haut débit. Les variantes à blocs partagent une échelle par groupe de valeurs.

Approfondir : FP8, FP6, FP4 →
Blackwell

Architecture GPU NVIDIA succédant à Hopper. Apporte le FP4 natif, davantage de mémoire HBM3e et un moteur Transformer de 2ᵉ génération.

Approfondir : H100 vs B100 →

Runtimes

KV cache

La mémoire de l'historique d'un LLM : un vecteur clé et un vecteur valeur par token déjà vu, à chaque couche. Croît linéairement avec le contexte et le batch.

Approfondir : KV cache →
PagedAttention

Gestion du KV cache par blocs de taille fixe, comme la mémoire virtuelle d'un système d'exploitation. Élimine la fragmentation ; introduite par vLLM.

Approfondir : KV cache →
Prefix caching

Réutilisation du KV cache d'un préfixe commun — system prompt, exemples few-shot — au lieu de le recalculer à chaque requête.

Approfondir : KV cache →
Quantification (GGUF)

Réduction du nombre de bits par poids pour faire tenir un modèle en mémoire. En local, Q4_K_M reste le compromis de référence entre taille et qualité.

Approfondir : llama.cpp et GGUF →
Batching continu

Ordonnancement à l'itération qui ajoute et retire des requêtes du batch en continu, au lieu d'attendre qu'un batch entier se termine. Cœur du débit de vLLM.

Approfondir : vLLM vs llama.cpp vs TensorRT-LLM →
Prefill / Decode

Les deux phases d'une requête LLM : le prefill traite le prompt d'un coup (intensif en calcul), le decode génère token par token (limité par la mémoire).

Approfondir : HBM et NVLink →

Edge AI

NPU

Circuit dédié à l'inférence de réseaux de neurones. Très efficace en énergie sur les opérateurs câblés, rigide en dehors de ce périmètre.

Approfondir : NPU vs GPU à l’edge →
Mémoire unifiée

Architecture où CPU et GPU partagent la même RAM physique, courante en embarqué (Jetson). Évite les copies, mais impose une enveloppe mémoire commune à tout le système.

Approfondir : Jetson Orin et edge AI →
TOPS

Trillions d'opérations par seconde — la métrique marketing des accélérateurs edge. Utile comme ordre de grandeur, trompeuse comme unique critère de choix.

Approfondir : Jetson Thor, Hailo-10H, Coral →

Coûts & système

Coût par token

Le coût réel de l'inférence : location ou amortissement du GPU, électricité, exploitation, divisés par les tokens réellement produits. L'utilisation en est le facteur dominant.

Approfondir : Coût d’inférence LLM →
LLMflation

La chute du coût de l'inférence pour une capacité équivalente — environ 10× par an entre 2021 et 2025, en ralentissement vers ~3–5× par an.

Approfondir : Coût d’inférence LLM →
eBPF

Mécanisme du noyau Linux permettant d'exécuter des programmes vérifiés attachés à des événements système. Outil d'observabilité du côté hôte d'une stack d'inférence.

Approfondir : eBPF et perf →