Deux cartes qui ne jouent pas dans la même cour

Comparer une RTX 5090 et un H100 a quelque chose de trompeur : ce sont deux réponses à deux questions différentes. La RTX 5090 est une carte grand public, vendue ~2 000 $, conçue pour tenir dans un boîtier de bureau. Le H100 est un module datacenter à plus de 25 000 $, pensé pour le service multi-utilisateurs à grande échelle — ECC, tissu NVLink, refroidissement de rack.

La vraie question n’est donc pas « lequel est le meilleur » — c’est « lequel pour quoi ». Et pour faire tourner un LLM en local, la réponse rationnelle est presque toujours la 5090. Le H100 sert de plafond de référence, pas de décision d’achat.

Ce que la RTX 5090 change vraiment

L’inférence LLM en génération est limitée par la mémoire, pas par le calcul. C’est exactement là que la 5090 progresse.

CaractéristiqueRTX 4090RTX 5090H100 SXM
VRAM24 Go GDDR6X32 Go GDDR780 Go HBM3
Bande passante≈ 1,0 To/s≈ 1,79 To/s≈ 3,35 To/s
FP8 (Tensor, pic)≈ 660 TFLOPS≈ 838 TFLOPS≈ 3 958 TFLOPS
FP4NonOui (Tensor 5ᵉ gén.)Non (Hopper)
TDP450 W575 Wjusqu'à 700 W
Prix indicatif≈ 2 000 $ (achat)≈ 25 000 $+ / ~3 $/h
Tableau 1 — RTX 5090 face à RTX 4090 et H100 SXM. Chiffres constructeurs ; les valeurs FP8 sont des pics (avec sparsité).

Le saut le plus utile n’est pas le nombre de cœurs : c’est le passage à la GDDR7 et à ~1,79 To/s de bande passante, contre ~1 To/s sur la 4090. Pour un modèle qui tient en VRAM, ce quasi-doublement se traduit presque directement en tokens par seconde générés. S’ajoutent 8 Go de plus (32 contre 24) et la prise en charge du FP4 par les Tensor Cores de 5ᵉ génération.

Ce qui tient dans 32 Go

La question pratique n’est pas « quelle carte est la plus rapide » mais « quel modèle y tient, et avec quelle marge ».

Concrètement, les 32 Go de la 5090 font tourner confortablement un modèle de classe ~30 milliards de paramètres en quantification de bonne qualité, avec de la marge pour le KV cache et un contexte raisonnable. Un modèle de 70 B n’y tient pas en Q4_K_M : il faut descendre à une quantification agressive (~3 bits ou moins), qui dégrade la qualité de façon visible, ou accepter un déchargement partiel vers la RAM CPU — fonctionnel, mais nettement plus lent. C’est la limite réelle d’une carte grand public, et aucune génération ne la fera disparaître tant que la VRAM reste à 32 Go.

Le H100, et pourquoi tu n’en achèteras pas

Sur le papier, le H100 écrase la 5090 : 80 Go de HBM3 à ~3,35 To/s, un débit FP8 plusieurs fois supérieur, l’ECC, le NVLink. Mais ces avantages sont ceux du datacenter : servir des dizaines de requêtes concurrentes, tenir des contextes longs en batch, s’assembler en nœuds.

Le H100 reste pertinent — mais en location, pour de la production servie à plusieurs. À ~3 $/h chez les fournisseurs cloud, on y accède sans immobiliser 25 000 $. La règle est simple : on loue un H100 pour servir, on achète une 5090 pour développer et faire tourner en local.

Le verdict par usage

UsageChoixPourquoi
LLM local, mono-utilisateurRTX 509032 Go suffisent pour ~30 B quantifié ; ~2 000 $
Développement / prototypageRTX 5090Itération locale, pas de facture horaire
Service multi-utilisateursH100 (loué)Mémoire, batch, NVLink — et pas d'immobilisation
Modèles > 30 B en qualitéH100 (loué)80 Go évitent la quantification destructrice
Confidentialité stricteRTX 5090La donnée ne quitte jamais la machine
Tableau 2 — Quelle carte pour quel usage.

Conclusion

« RTX 5090 vs H100 » n’est pas vraiment un duel : c’est une carte de bureau face à une carte de datacenter. Pour le local, la 5090 est l’outil juste — ses 32 Go de GDDR7 et sa bande passante quasi doublée par rapport à la 4090 en font une vraie machine à LLM personnels, dans la limite des modèles ~30 B. Le H100 reste la référence de production, mais c’est une référence qu’on loue : l’acheter pour un poste, c’est payer dix fois le prix pour un avantage qui ne s’exprime qu’à l’échelle. Avant de trancher, faites le calcul de coût complet.

Sources et méthode

Spécifications RTX 5090 et RTX 4090 : pages produit NVIDIA GeForce et fiches techniques publiques (32 Go GDDR7, ~1,79 To/s, 575 W, MSRP 1 999 $, lancement 30 janvier 2025). Spécifications H100 SXM : page NVIDIA H100 (80 Go HBM3, ~3,35 To/s). Les valeurs FP8 sont des chiffres « pic » constructeurs incluant la sparsité — elles ne reflètent pas un débit soutenu. Les repères de dimensionnement mémoire (Q4_K_M ≈ 4,5 bits/paramètre) sont cohérents avec les tailles observées sur les dépôts GGUF publics ; ils relèvent de l’ordre de grandeur. Prix de location H100 : pages tarifaires des fournisseurs cloud, relevées le 14 mai 2026.