Le match a changé

Il y a deux générations, comparer un Instinct à un GPU NVIDIA datacenter relevait de la formalité : AMD était en retrait sur la mémoire, sur le logiciel, sur le tissu d’interconnexion. Le MI300X a commencé à refermer l’écart mémoire ; le MI355X, architecture CDNA 4 disponible depuis octobre 2025, l’a refermé pour de bon côté silicium.

Ce n’est plus « est-ce qu’AMD peut suivre ». C’est « où l’écart se situe-t-il encore, et combien vaut-il ».

Les specs face à face

CaractéristiqueAMD MI355XNVIDIA B200NVIDIA B300
ArchitectureCDNA 4 (3 nm)BlackwellBlackwell Ultra
Mémoire288 Go HBM3e192 Go HBM3e288 Go HBM3e
Bande passante≈ 8 To/s≈ 8 To/s≈ 8 To/s
Formats basFP8 / MXFP6 / MXFP4FP8 / FP6 / FP4FP8 / FP6 / FP4
Enveloppe (TBP/TDP)≈ 1 400 W (liquide)≈ 1 000 W≈ 1 400 W
DisponibilitéOct. 2025Depuis 2024Volume janv. 2026
Tableau 1 — MI355X face aux Blackwell B200 et B300. Chiffres constructeurs ; voir les réserves sur le FP4 ci-dessous.

Le constat saute aux yeux : sur la mémoire et la bande passante, le MI355X est au niveau du haut de gamme Blackwell. Ses 288 Go de HBM3e dépassent les 192 Go du B200 et égalent le B300. Pour des charges où la mémoire est le facteur limitant — modèles à long contexte, gros KV cache — c’est un argument direct.

Là où AMD a rattrapé : la mémoire et le FP4

Là où NVIDIA garde l’avance : le scale-up et le logiciel

Si le silicium est à parité, pourquoi NVIDIA continue-t-il de remporter l’essentiel des déploiements ? Parce que la compétition ne se joue plus au niveau d’une puce isolée.

Le premier écart est le tissu d’interconnexion. NVLink relie des dizaines de GPU en un système à mémoire quasi cohérente — un GB300 NVL72, c’est 72 GPU qui se comportent presque comme un seul accélérateur géant. C’est ce qui permet de servir les très gros modèles sans payer le prix fort de la communication. AMD progresse sur le scale-up, mais c’est là que NVIDIA a le plus d’avance.

Le second écart est logiciel. C’est tout le sujet de CUDA vs ROCm : ROCm 7.2 a atteint la parité au niveau des frameworks, mais NVIDIA conserve les runtimes propriétaires, les kernels de pointe et une décennie d’outillage accumulé. Un GPU ne se déploie pas nu — il se déploie avec sa pile.

Ce que ça veut dire pour un acheteur

Concrètement : si votre pile est standard (PyTorch, vLLM) et que vous cherchez de la capacité mémoire à un coût d’acquisition compétitif, le MI355X mérite désormais un appel d’offres sérieux — il est déployé chez de vrais opérateurs cloud et disponible via les grands intégrateurs. Si votre charge exige le scale-up massif — entraînement ou service de modèles qui débordent largement un nœud — ou si vous dépendez d’une brique NVIDIA-only, l’écosystème Blackwell reste devant. L’arbitrage est réel ; il n’est simplement plus joué d’avance.

Conclusion

Le MI355X marque le moment où AMD a cessé d’être l’outsider du silicium IA : 288 Go de HBM3e, 8 To/s, FP4 natif — il ne s’agit plus de rattraper, mais d’être au niveau. L’écart qui subsiste s’est déplacé vers ce qui entoure la puce : le tissu NVLink et l’écosystème logiciel. Pour l’acheteur, c’est une bonne nouvelle — la concurrence sur le silicium est de retour, et avec elle la possibilité d’arbitrer. Pour la couche logicielle qui décide souvent du déploiement, voir CUDA vs ROCm en 2026.

Sources et méthode

Spécifications MI355X / MI350X : annonces et fiches publiques AMD Instinct série MI350 (CDNA 4, 288 Go HBM3e, ~8 To/s, MXFP6/MXFP4), couverture spécialisée 2025 (Tom’s Hardware, WccfTech). Spécifications B200 / B300 : page architecture NVIDIA Blackwell et page GB300 NVL72. Réserve importante : les débits FP4/FP8 par GPU sont publiés par NVIDIA et AMD sur des bases différentes (dense vs sparsité, par GPU vs système) — ils ne sont pas directement comparables, et nous ne donnons volontairement pas de chiffre FP4 unique. Les faits solidement établis ici sont la mémoire, la bande passante, l’enveloppe thermique et la disponibilité. Tissu NVLink : documentation publique NVIDIA. Tout est relevé au 14 mai 2026.