RTX 5090 vs H100 pour un LLM en local

RTX 5090 vs H100 pour faire tourner un LLM en local : 32 Go GDDR7 face à 80 Go HBM3, ce qui tient vraiment en VRAM, et pourquoi ce ne sont pas les mêmes produits.

Deux cartes qui ne jouent pas dans la même cour

Comparer une RTX 5090 et un H100 a quelque chose de trompeur : ce sont deux réponses à deux questions différentes. La RTX 5090 est une carte grand public, vendue ~2 000 $, conçue pour tenir dans un boîtier de bureau. Le H100 est un module datacenter à plus de 25 000 $, pensé pour le service multi-utilisateurs à grande échelle — ECC, tissu NVLink, refroidissement de rack.

La vraie question n’est donc pas « lequel est le meilleur » — c’est « lequel pour quoi ». Et pour faire tourner un LLM en local, la réponse rationnelle est presque toujours la 5090. Le H100 sert de plafond de référence, pas de décision d’achat.

Ce que la RTX 5090 change vraiment

L’inférence LLM en génération est limitée par la mémoire, pas par le calcul. C’est exactement là que la 5090 progresse.

Caractéristique	RTX 4090	RTX 5090	H100 SXM
VRAM	24 Go GDDR6X	32 Go GDDR7	80 Go HBM3
Bande passante	≈ 1,0 To/s	≈ 1,79 To/s	≈ 3,35 To/s
FP8 (Tensor, pic)	≈ 660 TFLOPS	≈ 838 TFLOPS	≈ 3 958 TFLOPS
FP4	Non	Oui (Tensor 5ᵉ gén.)	Non (Hopper)
TDP	450 W	575 W	jusqu'à 700 W
Prix indicatif	—	≈ 2 000 $ (achat)	≈ 25 000 $+ / ~3 $/h

Tableau 1 — RTX 5090 face à RTX 4090 et H100 SXM. Chiffres constructeurs ; les valeurs FP8 sont des pics (avec sparsité).

Le saut le plus utile n’est pas le nombre de cœurs : c’est le passage à la GDDR7 et à ~1,79 To/s de bande passante, contre ~1 To/s sur la 4090. Pour un modèle qui tient en VRAM, ce quasi-doublement se traduit presque directement en tokens par seconde générés. S’ajoutent 8 Go de plus (32 contre 24) et la prise en charge du FP4 par les Tensor Cores de 5ᵉ génération.

Ce qui tient dans 32 Go

La question pratique n’est pas « quelle carte est la plus rapide » mais « quel modèle y tient, et avec quelle marge ».

Concrètement, les 32 Go de la 5090 font tourner confortablement un modèle de classe ~30 milliards de paramètres en quantification de bonne qualité, avec de la marge pour le KV cache et un contexte raisonnable. Un modèle de 70 B n’y tient pas en Q4_K_M : il faut descendre à une quantification agressive (~3 bits ou moins), qui dégrade la qualité de façon visible, ou accepter un déchargement partiel vers la RAM CPU — fonctionnel, mais nettement plus lent. C’est la limite réelle d’une carte grand public, et aucune génération ne la fera disparaître tant que la VRAM reste à 32 Go.

Le H100, et pourquoi tu n’en achèteras pas

Sur le papier, le H100 écrase la 5090 : 80 Go de HBM3 à ~3,35 To/s, un débit FP8 plusieurs fois supérieur, l’ECC, le NVLink. Mais ces avantages sont ceux du datacenter : servir des dizaines de requêtes concurrentes, tenir des contextes longs en batch, s’assembler en nœuds.

Le H100 reste pertinent — mais en location, pour de la production servie à plusieurs. À ~3 $/h chez les fournisseurs cloud, on y accède sans immobiliser 25 000 $. La règle est simple : on loue un H100 pour servir, on achète une 5090 pour développer et faire tourner en local.

Le verdict par usage

Usage	Choix	Pourquoi
LLM local, mono-utilisateur	RTX 5090	32 Go suffisent pour ~30 B quantifié ; ~2 000 $
Développement / prototypage	RTX 5090	Itération locale, pas de facture horaire
Service multi-utilisateurs	H100 (loué)	Mémoire, batch, NVLink — et pas d'immobilisation
Modèles > 30 B en qualité	H100 (loué)	80 Go évitent la quantification destructrice
Confidentialité stricte	RTX 5090	La donnée ne quitte jamais la machine

Tableau 2 — Quelle carte pour quel usage.

Conclusion

« RTX 5090 vs H100 » n’est pas vraiment un duel : c’est une carte de bureau face à une carte de datacenter. Pour le local, la 5090 est l’outil juste — ses 32 Go de GDDR7 et sa bande passante quasi doublée par rapport à la 4090 en font une vraie machine à LLM personnels, dans la limite des modèles ~30 B. Le H100 reste la référence de production, mais c’est une référence qu’on loue : l’acheter pour un poste, c’est payer dix fois le prix pour un avantage qui ne s’exprime qu’à l’échelle. Avant de trancher, faites le calcul de coût complet.

Sources et méthode

Spécifications RTX 5090 et RTX 4090 : pages produit NVIDIA GeForce et fiches techniques publiques (32 Go GDDR7, ~1,79 To/s, 575 W, MSRP 1 999 $, lancement 30 janvier 2025). Spécifications H100 SXM : page NVIDIA H100 (80 Go HBM3, ~3,35 To/s). Les valeurs FP8 sont des chiffres « pic » constructeurs incluant la sparsité — elles ne reflètent pas un débit soutenu. Les repères de dimensionnement mémoire (Q4_K_M ≈ 4,5 bits/paramètre) sont cohérents avec les tailles observées sur les dépôts GGUF publics ; ils relèvent de l’ordre de grandeur. Prix de location H100 : pages tarifaires des fournisseurs cloud, relevées le 14 mai 2026.

RTX 5090 vs H100 : quelle carte pour un LLM en local ?

Deux cartes qui ne jouent pas dans la même cour

Ce que la RTX 5090 change vraiment

Ce qui tient dans 32 Go

Le H100, et pourquoi tu n’en achèteras pas

Le verdict par usage

Conclusion

Sources et méthode

Questions fréquentes

RTX 5090 vs H100 : quelle carte pour un LLM en local ?

Deux cartes qui ne jouent pas dans la même cour

Ce que la RTX 5090 change vraiment

Ce qui tient dans 32 Go

Le H100, et pourquoi tu n’en achèteras pas

Le verdict par usage

Conclusion

Sources et méthode

Questions fréquentes

À lire ensuite

Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

llama.cpp expliqué : GGUF, quantification et kernels

KV cache : pourquoi votre LLM sature la mémoire