Pourquoi descendre en précision

L’inférence LLM est limitée par la mémoire : à chaque token, le GPU relit les poids et le KV cache. Réduire le nombre de bits par valeur agit donc directement sur les deux variables qui comptent. Moins de bits, c’est moins d’octets à lire — donc plus de tokens par seconde sur une bande passante donnée — et moins de mémoire occupée — donc des modèles plus gros ou des batches plus larges sur la même VRAM.

Il y a trois ans, la conversation tournait autour de l’INT8 et du « 4 bits ». En 2026, elle tourne autour d’une famille de formats à virgule flottante que le matériel sait désormais calculer nativement.

FP, INT, et la différence qui compte

Un format entier (INT8) répartit ses bits de façon uniforme : il représente bien des valeurs dans une plage fixe, mal les valeurs très grandes ou très petites. Un format à virgule flottante (FP8, FP6, FP4) sacrifie de la précision locale pour garder une portée dynamique : il découpe ses bits entre un exposant et une mantisse.

C’est pourquoi les formats FP se sont imposés pour l’inférence des réseaux modernes : les activations d’un LLM ont une distribution à longue traîne — quelques valeurs énormes, beaucoup de petites — que la virgule flottante encaisse mieux que l’entier. La question n’est plus « FP ou INT » mais « combien de bits, et comment les répartir ».

Le paysage 2026 : FP8, FP6, FP4

FormatBitsMatérielUsage typique
FP8 (E4M3 / E5M2)8Hopper, Ada, Blackwell, MI300+Polyvalent : entraînement + inférence
FP6 / MXFP66Blackwell, série MI350Inférence, meilleure précision que FP4
FP4 / MXFP4 / NVFP44Blackwell, série MI350Inférence à débit maximal
Tableau 1 — Les formats basse précision de l'inférence en 2026. Le support matériel conditionne l'usage réel.

Le FP8 est le format de travail polyvalent : assez précis pour servir à l’entraînement comme à l’inférence, supporté largement, y compris sur les GPU Hopper. Le FP6 et le FP4 sont des formats d’inférence — et leur prise en charge native est récente : elle est arrivée avec les GPU Blackwell et la série MI350 d’AMD. Les Hopper (H100, H200) n’ont pas de FP4 : leur plancher est le FP8. C’est l’un des écarts structurels entre Hopper et Blackwell.

Les formats à blocs : MXFP4 et NVFP4

Tenir un poids en 4 bits paraît absurde : 16 valeurs possibles, c’est très peu. La solution est le microscaling — les formats à blocs.

C’est cette idée — séparer la valeur (4 bits, fine mais sans portée) de l’échelle (partagée, qui donne la portée) — qui rend le FP4 viable. Et c’est précisément ce que le moteur Transformer de 2ᵉ génération de Blackwell implémente dans le silicium : un scaling micro-tensoriel qui applique ces échelles sans coût logiciel, permettant un débit FP4 de l’ordre du double du débit dense FP8 de Hopper.

Le compromis : portée dynamique vs débit

Rien n’est gratuit. Descendre en précision rétrécit la portée dynamique, et un format mal calibré dégrade le modèle de façon visible. Mais le résultat, quand le scaling est fin, est meilleur que l’intuition ne le suggère.

La règle pratique : le FP4 pour le débit maximal quand la tâche le tolère, le FP6 quand on veut une marge de précision, le FP8 quand le doute subsiste ou que le même format doit servir à l’entraînement. Ce n’est pas un classement — c’est une palette.

Ce que ça change concrètement

Pour qui dimensionne une inférence, trois conséquences. D’abord, le format n’est utile que si le matériel le calcule nativement : faire du FP4 « logiciel » sur un GPU sans unités FP4 ne donne ni le débit ni l’économie attendus — d’où l’importance de connaître le plancher de précision de sa puce. Ensuite, le gain mémoire du FP4 se cumule avec celui du KV cache quantifié : poids en FP4, cache en FP8, et la VRAM utile double presque. Enfin, la calibration n’est pas optionnelle : c’est elle qui sépare un FP4 à moins de 1 % de perte d’un FP4 qui casse le modèle.

Conclusion

La basse précision n’est plus un bricolage de fin de chaîne : c’est une capacité conçue dans le silicium. Le FP4, porté par les formats à blocs et le moteur Transformer de Blackwell, est la frontière 2026 de l’inférence à haut débit — et il n’a de sens que sur un matériel qui le calcule nativement. Raisonner « INT8 / 4 bits » comme il y a trois ans, c’est rater l’essentiel : ce qui compte aujourd’hui, c’est la palette FP8 / FP6 / FP4 et la finesse du scaling. Pour la mise en œuvre côté logiciel, voir la quantification dans llama.cpp.

Sources et méthode

Formats FP8/FP6/FP4 et support matériel : documentation publique NVIDIA sur l’architecture Blackwell et le moteur Transformer de 2ᵉ génération, introduction au NVFP4, et annonces AMD série MI350 (support natif MXFP6/MXFP4). Les formats à blocs (microscaling, blocs de 32 pour MXFP4, blocs de 16 pour NVFP4) suivent les spécifications publiques de ces formats. Le chiffre « perte < 1 %, mémoire ÷ ~3,5 » est rapporté par NVIDIA pour le NVFP4 sur certains modèles — c’est une estimation crédible dépendante du modèle et de la calibration, pas une garantie universelle. Tout est relevé au 14 mai 2026.