H100 vs B100 : comparatif inférence LLM

H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.

Pourquoi cette comparaison compte

Avec Blackwell, NVIDIA introduit une génération pensée pour l’inférence à très grande échelle. Le sujet n’est pas seulement le débit brut : il faut regarder la mémoire, les chemins de données, les formats numériques et la capacité à maintenir les unités de calcul alimentées sous charge réelle.

Cette analyse confronte le H100 SXM5 (Hopper) à un profil B100 SXM (Blackwell) dans des scénarios représentatifs : batch continu, longues fenêtres de contexte, KV cache sous pression et kernels denses exécutés via Triton, llama.cpp et vLLM. L’objectif n’est pas de rejouer les chiffres marketing, mais de comprendre où le gain apparaît et pourquoi.

Ce qui change dans l’architecture

Hopper et Blackwell partagent la même logique d’ensemble : des Streaming Multiprocessors, des Tensor Cores, une hiérarchie de cache, de la HBM et du NVLink. Blackwell ne réinvente rien — il pousse chaque maillon plus loin.

Le saut le plus visible est mémoire. Le H100 SXM5 embarque 80 Go de HBM3 ; le B100 monte à 192 Go de HBM3e avec une bande passante qui passe d’environ 3,35 To/s à près de 8 To/s. Les Tensor Cores de 5ᵉ génération ajoutent des formats compacts (FP6, FP4) qui réduisent la pression mémoire des poids et du KV cache. Le NVLink 5 double la bande passante inter-GPU.

Le vrai goulot : mémoire et bande passante

En inférence autorégressive, la phase decode est dominée par les accès mémoire, pas par le calcul. Chaque token généré relit l’intégralité des poids et l’ensemble du KV cache. Tant que les Tensor Cores attendent la HBM, ajouter des FLOPS ne sert à rien.

HBM3e ≈ 8 To/s poids + KV cache

Cache L2 ≈ 126 Mo localité

Tensor Cores FP8 / FP6 / FP4 matmul

NVLink 5 1,8 To/s inter-GPU

Figure 1 — Chaîne de données simplifiée pour une passe decode intensive sur B100.

C’est exactement là que Blackwell concentre ses gains : plus de capacité pour garder des batches plus larges et des contextes plus longs en mémoire, plus de bande passante pour les servir, et des formats plus compacts pour faire tenir davantage de KV cache par giga-octet. On détaille ce mécanisme dans HBM et NVLink : pourquoi les LLM sont limités par la mémoire.

Performances mesurées en inférence

Les mesures ci-dessous comparent le débit en génération (tokens/s) sur quatre charges, à longueur de contexte et batch fixés, runtime vLLM 0.20 pour les modèles serveurs et llama.cpp pour les variantes quantifiées.

Tokens/s — génération, batch continu

H100 SXM B100 SXM

1,42k

1,91k

1,21k

1,61k

1,26k

1,80k

1,76k

2,39k

Llama 3 70B (INT8)

Mistral 8x22B (FP8)

Qwen 2 72B (INT4)

Llama 3 70B (INT4)

Mesures internes, contexte 4k, batch 32. Les valeurs marketing pic ne sont pas reportées.

Extrait de kernel optimisé pour FP8

Une partie du gain Blackwell n’apparaît que si le kernel exploite réellement les nouveaux formats. Voici un squelette de kernel matmul FP8 écrit en Triton — la structure de tuilage compte autant que les unités matérielles.

@triton.jit
def matmul_fp8_kernel(a, b, c, m, n, k, BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr):
    # Un programme par tuile de sortie (pid_m, pid_n)
    pid_m = tl.program_id(0)
    pid_n = tl.program_id(1)
    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
    offs_n = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
    offs_k = tl.arange(0, BLOCK_K)
    acc = tl.zeros((BLOCK_M, BLOCK_N), tl.float32)
    for k0 in range(0, k, BLOCK_K):
        x = tl.load(a + offs_m[:, None] * k + offs_k[None, :], mask=offs_m[:, None] < m)
        y = tl.load(b + offs_k[:, None] * n + offs_n[None, :], mask=offs_n[None, :] < n)
        acc += tl.dot(x, y, out_dtype=tl.float32)
    tl.store(c + offs_m[:, None] * n + offs_n[None, :], acc)

L’accumulateur reste en FP32 : on charge en FP8, on calcule en FP8, mais on accumule large pour préserver la précision. Sur Blackwell, c’est cette discipline qui transforme la bande passante gagnée en débit réel.

Comparatif technique consolidé

Caractéristique	H100 SXM (Hopper)	B100 SXM (Blackwell)	Gain
SM (GPU)	132	148	+12 %
Mémoire HBM	80 Go HBM3	192 Go HBM3e	+140 %
Bande passante mémoire	3,35 To/s	8,0 To/s	+139 %
Tensor Cores	4ᵉ génération	5ᵉ génération	FP6 / FP4
NVLink	900 Go/s	1,8 To/s	2,0x
Enveloppe SXM	700 W	700 W	iso-enveloppe

Tableau 1 — Spécifications clés consolidées pour cadrer les ordres de grandeur.

Le rapport le plus parlant n’est pas le débit brut mais le débit par watt et le débit par giga-octet de KV cache : c’est là que Blackwell se détache, parce que le B100 SXM délivre ses gains mémoire à enveloppe thermique constante (700 W, comme le H100 SXM5). Le surcroît de débit est donc directement un gain d’efficacité, sans budget thermique supplémentaire.

Limites et zones d’incertitude

Trois réserves importantes. D’abord, les profils B100 dépendent fortement de la maturité du runtime : un kernel qui n’exploite pas FP6/FP4 laisse une partie du gain sur la table. Ensuite, les charges prefill-dominées (longs prompts, peu de génération) profitent moins du saut mémoire que les charges decode-dominées. Enfin, à l’échelle du datacenter, le coût total intègre l’alimentation, le refroidissement et la densité rack — pas seulement le prix du GPU.

Autrement dit : le B100 n’efface pas le H100. Il déplace le point d’équilibre.

Conclusion

Le B100 SXM s’impose comme une option cohérente pour l’inférence LLM à grande échelle lorsque la mémoire, la bande passante et l’efficacité par watt deviennent les vrais facteurs limitants. Les gains ne sont pas uniformes, mais ils sont visibles dès que la charge dépasse le simple benchmark court.

Blackwell marque une évolution incrémentale majeure : le vrai palier ne vient pas uniquement du silicium, mais de l’écosystème logiciel capable d’exploiter mémoire, KV cache et formats compacts.

— Killian Pluenet, Architecte systèmes & IA

Pour aller plus loin sur le choix du runtime qui exploite réellement ce matériel, voir vLLM vs llama.cpp vs TensorRT-LLM.

Sources et méthode

Mesures de performance — mesures internes LeCompute sur banc reproductible (vLLM 0.20, llama.cpp build de mai 2026, contexte 4k, batch 32). Ce sont des débits soutenus en génération, pas les chiffres « pic » communiqués par les constructeurs. Elles relèvent de l’estimation crédible, pas du fait vérifié : elles dépendent du runtime, du driver et des kernels, et n’engagent que notre banc.

Spécifications matérielles (faits vérifiés) :

NVIDIA H100 Tensor Core GPU — datasheet : resources.nvidia.com
NVIDIA Hopper Architecture In-Depth (SM, cache L2 du H100) : developer.nvidia.com
NVIDIA Blackwell Architecture (NVLink 5, formats FP4/FP6) : nvidia.com
NVIDIA Blackwell Tuning Guide (capacité L2 = 126 Mo) : docs.nvidia.com

Note sur le B100 — NVIDIA n’a pas publié de fiche technique B100 aussi détaillée que celle du H100. Les caractéristiques de microarchitecture (148 SM, 126 Mo de L2, Tensor Cores 5ᵉ génération) sont celles du die GB100, commun aux B100 et B200 et mesuré au niveau B200 ; le B100 s’en distingue surtout par ses fréquences et son enveloppe (700 W), pas par le nombre d’unités.

H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM

Pourquoi cette comparaison compte

Ce qui change dans l’architecture

Le vrai goulot : mémoire et bande passante

Performances mesurées en inférence

Extrait de kernel optimisé pour FP8

Comparatif technique consolidé

Limites et zones d’incertitude

Conclusion

Sources et méthode

Questions fréquentes

H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM

Pourquoi cette comparaison compte

Ce qui change dans l’architecture

Le vrai goulot : mémoire et bande passante

Performances mesurées en inférence

Extrait de kernel optimisé pour FP8

Comparatif technique consolidé

Limites et zones d’incertitude

Conclusion

Sources et méthode

Questions fréquentes

À lire ensuite

HBM et NVLink : pourquoi les LLM sont limités par la mémoire

vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?

llama.cpp expliqué : GGUF, quantification et kernels