RTX Spark vs DGX Spark : specs, mémoire, prix (2026)

Le RTX Spark (N1X) n'est pas un DGX Spark renommé : c'est le SoC Grace-Blackwell sous Windows on Arm, 128 Go de mémoire unifiée. Pourquoi ce sont les ~273 Go/s, et non le « pétaflop », qui décident de ce qu'il sait faire.

RTX Spark n’est pas un DGX Spark renommé

La couverture presse du 31 mai 2026 a immédiatement mélangé deux produits que NVIDIA vend séparément, et l’amalgame mérite d’être défait avant toute analyse technique. Le DGX Spark existe depuis 2025 : une mini-station de développement IA sous Linux (DGX OS), bâtie sur le superchip GB10, pensée pour le data scientist qui veut un nœud Grace-Blackwell sur son bureau. Le RTX Spark annoncé à Computex est autre chose : un SoC grand public, codename N1X, qui tourne sous Windows on Arm et vise créateurs, développeurs et joueurs.

Les deux partagent la philosophie (un CPU Arm et un GPU Blackwell sur le même package, 128 Go de mémoire unifiée), et Jensen Huang a lui-même décrit le N1X comme « techniquement très proche » du GB10 en Q&A presse. Mais proche n’est pas identique. Ce sont deux puces, deux systèmes d’exploitation, deux formats, deux fiches produit, et probablement deux jeux de fonctionnalités réseau distincts. Lire le RTX Spark comme un DGX Spark sous un autre nom, c’est rater ce que NVIDIA fait réellement : entrer pour la première fois sur le marché du PC Windows-on-Arm premium, là où Qualcomm était jusqu’ici seul.

Ce qui rend l’analyse possible malgré le quasi-silence de NVIDIA sur les specs détaillées, c’est précisément cette parenté. Le GB10 du DGX Spark est documenté, mesuré, livré ; le N1X ne l’est pas encore. Tout le travail consiste donc à dériver du jumeau ce que NVIDIA n’a pas publié sur le N1X, en signalant à chaque fois ce qui est officiel, ce qui vient du GB10, et ce qui relève de la fuite ou de l’estimation.

Le silicium : Grace-Blackwell pour Windows

Le N1X fusionne sur un seul package un CPU Arm et un GPU Blackwell, reliés par un lien cohérent. Chaque bloc a sa généalogie.

Bloc	RTX Spark (N1X)	Origine du chiffre
CPU	20 cœurs Arm : 10× Cortex-X925 + 10× Cortex-A725, co-conçu MediaTek	Fuite / reporting
GPU	Blackwell « RTX », 6 144 cœurs CUDA (≈ RTX 5070)	Officiel (communiqué)
Tensor / RT Cores	Tensor 5ᵉ gén. (FP4/NVFP4), RT 4ᵉ gén.	Officiel + GB10
Compute capability	SM121 (≠ SM120 RTX 5090, ≠ SM100 datacenter)	GB10 (Backend.AI)
Gravure	3 nm TSMC (« 3nm-class »)	Officiel
Mémoire	jusqu'à 128 Go LPDDR5X unifiée, bus 256 bits, ~273 Go/s	Officiel (128 Go) + GB10 (273 Go/s)
Lien CPU↔GPU	NVLink-C2C, ~600 Go/s agrégés	Hot Chips 2025
OS	Windows on Arm	Officiel
TDP	~45–110 W selon l'OEM (alims jusqu'à 140 W)	Non officiel

Tableau 1 : Architecture du RTX Spark (N1X), best-reported au 5 juin 2026. Les figures GPU/mémoire sont dérivées du GB10 jumeau ; le découpage des cœurs vient du reporting heise/c't et de fuites, pas d'une fiche officielle NVIDIA.

Le CPU est un 20 cœurs Arm (dix Cortex-X925 de performance, dix Cortex-A725 d’efficacité), co-conçu avec MediaTek, qui fournit les chiplets CPU. Les X925 sont les mêmes cœurs que dans le Dimensity 9400 pour smartphones : NVIDIA n’a pas designé un CPU serveur custom comme le cœur Olympus du Vera CPU, il a assemblé une plateforme à partir d’IP Arm de pointe.

Le GPU est un Blackwell « RTX » à 6 144 cœurs (le même compte que la GeForce RTX 5070 desktop), avec des de 5ᵉ génération qui câblent le et les RT Cores de 4ᵉ génération pour le rendu. Sur le GB10 jumeau, NVIDIA décline ce GPU en 48 / 192 Tensor Cores. C’est le GPU qui justifie l’étiquette « RTX » et la promesse gaming.

Une nuance d’ingénierie compte pour qui écrit des kernels. Le Blackwell du Spark n’est pas le Blackwell datacenter. Le GB10 (donc le N1X) est en compute capability SM121, distinct du SM120 d’une RTX 5090 et du SM100 d’un B200. Il supporte FP4/FP6/FP8 et les Tensor Cores 5ᵉ gén., mais son modèle de programmation des Tensor Cores est plus proche du mma.sync d’Ampere que des instructions tcgen05 du Blackwell datacenter : il lui manque la TMEM et les MMA coopératives 2-SM. Voici ce que ça implique concrètement : un développeur de kernels CUDA bas niveau qui vise les trois cibles doit maintenir trois chemins de code (Hopper, Blackwell datacenter, Blackwell grand public) et non deux. Pour l’utilisateur de runtimes (vLLM, TensorRT-LLM, llama.cpp), la couche d’abstraction absorbe la différence ; pour celui qui écrit le kernel, elle est réelle.

Les trois chiffres qu’on confond

C’est ici que la couverture grand public dérape le plus, et c’est ici que le lectorat LeCompute attend de la précision. Trois valeurs circulent autour du RTX Spark, exprimées dans la même unité, et la presse les interchange, alors qu’elles décrivent trois choses différentes.

Métrique	Valeur	Ce que c'est
Bande passante mémoire LPDDR5X	~273 Go/s	Débit de la mémoire système unifiée (le mur du decode)
Bus mémoire	256 bits (N1X) / 128 bits (N1)	Largeur du canal, pas un débit
NVLink-C2C	~600 Go/s agrégés	Lien cohérent CPU↔GPU, pas la mémoire

Tableau 2 : Trois bandes passantes à ne pas confondre. La seule qui fixe le débit de génération est la première.

La bande passante mémoire est ~273 Go/s. NVIDIA n’a publié aucun chiffre officiel pour le N1X ; celui-ci vient mot pour mot de la fiche GB10 : « Memory Bandwidth: 273 GB/s · Memory Channels: 16 channels (256 bit) LPDDR5X 8533 ». L’arithmétique le confirme : un bus 256 bits transporte 32 octets par cycle, et à 8 533 MT/s cela donne 32 × 8 533 ≈ 273 Go/s. Le « jusqu’à 300 Go/s » qu’on lit ailleurs est l’arrondi d’un clock de 9,4 Gbps évoqué à Hot Chips 2025 ; la valeur livrée mesurée est 273.

Les ~600 Go/s désignent autre chose : la bande passante agrégée du NVLink-C2C, le lien cohérent qui relie le die CPU au die GPU à l’intérieur du package. NVIDIA le décrit à Hot Chips 2025 comme offrant « 5× la bande passante de PCIe Gen 5 » : c’est un lien d’interconnexion interne, pas un débit vers la mémoire système. Le confondre avec la bande passante mémoire revient à confondre la largeur du Approfondir dans le glossaire d’un nœud datacenter avec le débit d’une carte : deux étages différents de la hiérarchie de transport.

Cette mémoire est unifiée et cohérente : le GPU n’a pas de VRAM dédiée, il accède à la LPDDR5X via les contrôleurs mémoire logés dans le die CPU MediaTek, de façon transparente sur le NVLink-C2C. C’est le même principe d’architecture qu’un Apple Silicon ou qu’un Jetson Thor à la marge embarquée : un seul pool que CPU et GPU se partagent dynamiquement, sans copie explicite. L’avantage est la capacité : 128 Go accessibles au GPU, là où une carte grand public plafonne à 32. Le coût est le débit : la LPDDR5X est de la mémoire mobile, pas de la GDDR7 ni de la HBM.

Le « 1 pétaflop » décodé

Le chiffre d’accroche de l’annonce (1 petaflop) est exact et trompeur à la fois, et il faut le déplier comme tout chiffre brut. La note de bas de page officielle de NVIDIA est explicite : « Theoretical FP4 TOPS using the sparsity feature ». Trois mots y font tout le travail.

Theoretical : c’est un pic d’unités de calcul, pas un débit soutenu sur une charge réelle. FP4 : c’est le format le plus dense des Tensor Cores 5ᵉ gén., quatre bits par valeur, pas du FP16. Sparsity : c’est la structurée 2:4, où le matériel ignore la moitié des poids préalablement mis à zéro, ce qui double le débit annoncé sans calculer davantage. Retirez la sparsité et vous obtenez ~500 TFLOPS FP4 denses, la moitié du chiffre vitrine. Montez en FP16 ou FP32, formats où l’on entraîne et où l’on sert encore beaucoup, et le débit retombe à celui d’un GPU de milieu de gamme, classe RTX 5060/5070.

Ce pic FP4 n’est pas inutile : il sert le , la phase où le modèle traite tout le prompt d’un coup et sature les Tensor Cores. Mais un service d’inférence réel est presque toujours dominé par la phase suivante, le , et celle-là ne lit pas la fiche des FLOPS.

Ce que ~273 Go/s changent pour l’inférence

Voici le passage qui décide de tout le reste, et il tient à un mécanisme déjà central dans le rapport entre HBM et débit LLM. La génération de tokens d’un LLM est autorégressive : chaque nouveau token relit l’intégralité des poids du modèle plus tout le accumulé. Pour quelques milliards d’opérations utiles, le GPU traverse des dizaines de gigaoctets de mémoire. La charge est memory-bound : le silicium passe l’essentiel de son temps à attendre la mémoire, et c’est la bande passante, pas les FLOPS, qui fixe le plafond.

Posons la calculette sur un cas dense. Un modèle de 70 milliards de paramètres servi en pèse ~70 Go de poids, qu’il faut relire à chaque token. Le plancher physique de génération est une division : 70 Go ÷ 273 Go/s ≈ 256 ms par token, soit ~4 tokens par seconde au plafond mémoire, pour une seule séquence. Une RTX 5090, avec ses ~1 792 Go/s de GDDR7, lirait les mêmes poids en ~39 ms, mais elle ne peut pas tenir un 70 B FP8 : ses 32 Go débordent. C’est tout le paradoxe du Spark : il charge le modèle que la 5090 refuse, puis le sert au rythme que sa mémoire mobile autorise. La même mémoire mobile qui offre les 128 Go impose les 273 Go/s ; on n’a pas l’un sans l’autre.

L’échappatoire n’est pas une astuce, c’est un type de modèle. Les architectures MoE (Mixture of Experts, où un routeur n’active que quelques experts par token sur la totalité disponible) cassent l’équation. Sur un GPT-OSS 120B, seuls ~4 experts sur 128 s’activent par token : la totalité du modèle (~65 Go de poids, ~80 Go une fois chargé) doit résider en mémoire, mais chaque token n’en lit qu’une fraction. Le coût mémoire par token s’effondre, et le débit de decode redevient utilisable alors même que le modèle pèse 80 Go. C’est précisément la raison d’être des 128 Go : charger tout le modèle, puis ne payer en bande passante que le prix des experts actifs. Pour un modèle dense, la même capacité ne sert qu’à loger le modèle ; elle ne le fait pas tourner vite.

Les seuls chiffres mesurés dont on dispose viennent du DGX Spark sous Linux, à utiliser comme proxy en gardant à l’esprit que les perfs Windows-on-Arm du N1X peuvent différer (drivers signalés immatures début 2026). Le motif y est sans ambiguïté.

Charge	Prefill (tps)	Decode (tps)
GPT-OSS 20B (MXFP4, Ollama) sur DGX Spark	≈ 2 053	≈ 50
GPT-OSS 20B sur RTX 5090 (réf.)	≈ 8 519	≈ 205
GPT-OSS 120B (MXFP4, llama.cpp) sur DGX Spark	≈ 1 723	≈ 38
GPT-OSS 120B sur trio de RTX 3090 (réf.)	≈ 1 642	≈ 124

Tableau 3 : Débits mesurés sur DGX Spark (GB10, Linux), à titre indicatif pour le N1X. Prefill = traitement du prompt (compute-bound) ; decode = génération (memory-bound). Sources LMSYS (13 oct. 2025) et communautaires.

Le DGX Spark tient le prefill : il fait jeu égal avec un trio de RTX 3090 sur le GPT-OSS 120B, parce que le prefill est compute-bound et que le pic FP4 sert là. Mais sur le decode, il génère trois à quatre fois moins vite que des cartes à mémoire GDDR : la 5090 et le trio de 3090 ont la bande passante, le Spark a la capacité. LMSYS conclut sa revue d’une phrase qui résume l’objet : « the Spark’s unified LPDDR5x memory bandwidth is the main limiting factor ». Le RTX Spark hérite de cette mémoire et de cette limite à l’identique.

Reste un levier logiciel propre à l’écosystème NVIDIA : les formats FP4. Le NVFP4 (la variante NVIDIA à blocs de 16 valeurs et scaling à deux niveaux, plus fine que le MXFP4 standard) est câblé dans les Tensor Cores du Spark, mais il n’est exploité matériellement que via TensorRT-LLM ou NIM ; un en llama.cpp utilise son propre schéma. Quantifier agressivement les poids réduit les octets lus par token, donc déplace un peu le plafond memory-bound, mais ne le supprime pas. Le aide aussi : servir plusieurs requêtes concurrentes amortit le coût de relecture des poids sur tout le batch. La parade au mur des 273 Go/s tient en trois gestes (modèles MoE, quantification NVFP4/MXFP4, batching) : aucun ne change la mémoire, tous contournent sa lenteur.

RTX Spark face au reste du marché

Le bon repère n’est pas « est-ce un bon GPU » mais « quel arbitrage capacité/bande passante ». Mis en regard des machines qu’un acheteur compare réellement, le Spark occupe une case précise.

Système	Mémoire	BP mémoire	Prix indicatif
RTX Spark (N1X)	128 Go LPDDR5X unifiée	~273 Go/s	≈ 2 667 € (est.)
DGX Spark (GB10)	128 Go LPDDR5X unifiée	~273 Go/s	≈ 3 679 € → 4 323 €
Mac Studio M3 Ultra	96 Go unifiée (256/512 Go retirés)	~819 Go/s	dès ≈ 4 875 € (5 299 $)
RTX 5090 (bureau)	32 Go GDDR7	~1 792 Go/s	2 099 € (MSRP), 3 900 €+ en rue
RTX PRO 6000 Blackwell	96 Go GDDR7 ECC	~1 792 Go/s	≈ 12 190 € (13 250 $, tarif off.)

Tableau 4 : RTX Spark face aux machines concurrentes. Prix indicatifs en euros, convertis à 0,92 USD/EUR (voir Sources et méthode). Les valeurs FP4 sont des pics sparse constructeur.

Face au DGX Spark, c’est le même couple capacité/bande passante. La différence est l’OS (Windows vs Linux), le format (PC grand public vs mini-station), le prix estimé plus bas, et probablement l’absence du clustering ConnectX-7 que le DGX Spark expose pour relier deux unités. Si votre besoin est un nœud de dev IA Linux, le DGX Spark reste le produit ; si c’est un PC Windows premium qui sait aussi faire de l’inférence locale, c’est le RTX Spark.

Face au Mac Studio M3 Ultra, l’arbitrage a changé en cours de pénurie. Apple offre trois fois la bande passante (~819 contre ~273 Go/s), soit une génération de tokens nettement plus rapide, mais a retiré les options 256 et 512 Go de son catalogue (printemps 2026) et relevé la base à 5 299 $ pour 96 Go plafonnés : l’argument capacité a changé de camp. Mais pas de FP4 matériel ni de . Le Spark gagne au prefill et sur l’écosystème CUDA/TensorRT ; le Mac gagne au decode et à la capacité. Une astuce communautaire combine les deux en serving désagrégé (DGX Spark au prefill, Mac Studio au decode) pour un gain de ~2,8× sur le Mac seul.

Face à une RTX 5090 ou une RTX PRO 6000, c’est l’arbitrage exact qui structure déjà le match entre carte grand public et carte datacenter. Les cartes GDDR7 ont ~6,5× la bande passante du Spark, soit ~4× son débit de génération sur les modèles qui tiennent dans leur VRAM. Mais 32 Go (5090) ou 96 Go (6000 Pro) plafonnent la taille des modèles. Le Spark échange la vitesse brute contre la capacité : il charge un 120 B ou un 70 B qu’une 5090 ne peut pas, au prix d’un débit token plus faible. Pour savoir précisément ce qui tient dans chaque palier de mémoire, on applique la formule complète (poids, KV cache et overhead) ; le duel direct avec la 5090, verdicts par taille de modèle compris, est déroulé dans DGX Spark vs RTX 5090.

Prix, disponibilité, et ce qui reste à confirmer

Aucun prix n’est officiel. Les estimations les plus citées viennent d’un rapport Morgan Stanley relayé le 2 juin 2026 : les PC IA à N1X auraient besoin de se vendre autour de 2 667 € (configs de base), les modèles N1 autour de 1 655 €, chiffres convertis de 2 899 $ et 1 799 $, qui concernent les configurations d’entrée (16–32 Go, 512 Go–1 To de SSD). Une machine 128 Go multi-To coûtera bien plus. PCWorld cite des sources OEM autour de 2 300 € (N1X) et 1 840 € (N1). La cible explicite est le MacBook Pro M5 Pro, autour de 1 930 €.

La disponibilité est annoncée pour l’automne 2026, avec un risque de glissement lié aux drivers Windows-on-Arm signalés immatures début 2026. Tous les portables exposés à Computex étaient des mockups non fonctionnels ; seuls les systèmes internes de NVIDIA tournaient. Plus de 30 portables et ~10 desktops sont attendus chez ASUS, Dell, HP, Lenovo, Microsoft Surface et MSI, avec Acer et Gigabyte ensuite.

Pour qui, et pour quoi

La décision se lit sur la forme de votre charge, pas sur la fiche.

Pour charger un gros modèle en local (un MoE de 100 à 120 B que nulle carte grand public ne tient), le RTX Spark est exactement l’outil : 128 Go de mémoire unifiée, et un coût mémoire par token faible si le modèle est MoE. Pour un PC créateur Windows qui doit aussi faire de l’inférence et du rendu accéléré CUDA, c’est la première machine Windows-on-Arm à offrir 100 % de la stack NVIDIA. Pour générer vite sur un modèle dense (un 70 B servi en qualité à plusieurs dizaines de tokens/s), ce n’est pas la bonne machine : sa mémoire mobile l’en empêche par construction, et une carte GDDR ou un Mac Studio à plus grande bande passante reste devant. Pour un nœud de dev IA pur sous Linux, le DGX Spark jumeau, ou la location d’un GPU cloud à l’heure, reste l’option rationnelle.

Conclusion

Le RTX Spark ne change pas la limite fondamentale qu’il partage avec le DGX Spark : même type de mémoire, même bus, mêmes ~273 Go/s. Son apport est la capacité et l’efficacité énergétique d’un SoC, pas le débit token sur modèle dense. La vraie question n’est donc pas « combien de pétaflops » mais celle que pose tout achat de machine d’inférence : quelle bande passante pour relire vos poids à chaque token, et combien de mémoire pour les loger une fois posés ? Le Spark répond fort à la seconde, modestement à la première.

Ce qui déplacera ce mur n’est pas un meilleur GPU, c’est une meilleure mémoire. NVIDIA s’engage publiquement sur trois générations : Grace-Blackwell aujourd’hui, puis une paire Vera Rubin en LPDDR6, puis Rosa Feynman. La LPDDR6 est précisément le levier qui relèverait les 273 Go/s d’un SoC grand public, et c’est la même logique de spécialisation par phase qui redessine déjà l’inférence datacenter. Le RTX Spark de 2026 est la première marche : un pari sur la capacité unifiée, en attendant que la bande passante mobile rattrape son retard.

Sources et méthode

Cet article s’appuie sur un dossier de recherche interne arrêté au 5 juin 2026, l’annonce du RTX Spark datant des 31 mai / 1ᵉʳ juin 2026 à Computex/GTC Taipei. NVIDIA n’ayant publié quasiment aucune spec officielle détaillée du N1X, une part des chiffres est dérivée du GB10 jumeau (DGX Spark) ou de fuites ; chaque étiquette ci-dessous le précise.

Faits vérifiés. Le communiqué newsroom NVIDIA donne le GPU à 6 144 cœurs CUDA, le « 1 petaflop », les 128 Go de mémoire unifiée, le CPU 20 cœurs et l’OS Windows on Arm. La bande passante mémoire ~273 Go/s, le bus 256 bits (16 canaux LPDDR5X-8533) et la compute capability SM121 sont des faits vérifiés sur le GB10 jumeau (fiche DGX Spark ; analyse Backend.AI, février 2026), pas sur le N1X, NVIDIA n’ayant publié aucun chiffre de bande passante pour le RTX Spark. Le NVLink-C2C à ~600 Go/s agrégés et le ratio « 5× PCIe Gen 5 » viennent de la présentation Hot Chips 2025. La note « Theoretical FP4 TOPS using the sparsity feature » est la note de bas de page officielle NVIDIA ; le ~500 TFLOPS FP4 dense en découle (sparsité 2:4 = ×2).

Estimations crédibles. Les prix (≈ 2 667 € / 1 655 € pour N1X / N1) sont des estimations d’analystes Morgan Stanley relayées par Max Weinbach le 2 juin 2026, non confirmées par NVIDIA, dans un contexte de pénurie DRAM/NAND qui a déjà fait passer le DGX Spark de 3 999 $ à 4 699 $. Les sources OEM PCWorld (≈ 2 300 € / 1 840 €) convergent à l’ordre de grandeur. Le catalogue Mac Studio réduit (retrait des options 256/512 Go au printemps 2026, base M3 Ultra à 5 299 $ pour 96 Go) est constaté sur la boutique Apple et recoupé avec la couverture presse, juillet 2026. Le découpage des cœurs (10+10, 9+9, 8+4), les bus 256/128 bits et le TDP 45 à 110 W sont best-reported (heise/c’t, fuites VideoCardz), non officiels.

Proxy de mesure. Tous les débits tokens/s (GPT-OSS 20B et 120B, prefill/decode) sont mesurés sur le DGX Spark sous Linux, pas sur le RTX Spark sous Windows : revue LMSYS du 13 octobre 2025, benchmarks communautaires (Benjamin Marie, The Kaitchup ; discussions llama.cpp #16578). Les perfs Windows-on-Arm du N1X peuvent différer (drivers signalés immatures). Les références RTX 5090 / RTX 3090 sont des mesures tierces sur les mêmes charges.

Hypothèses assumées. Le plancher physique de ~4 tokens/s sur un 70 B FP8 dense (70 Go ÷ 273 Go/s) est un calcul de plafond mémoire pour une seule séquence, pas un débit applicatif. Le raisonnement MoE (octets lus par token réduits par le routage des experts) est un mécanisme, pas une mesure sur le N1X. La projection LPDDR6/Vera Rubin/Feynman s’appuie sur la roadmap publique NVIDIA, sans calendrier détaillé.

Sources primaires. Communiqué NVIDIA Newsroom (annonce Computex 2026) ; fiche technique DGX Spark / GB10 ; NVIDIA Developer Blog : Introducing NVFP4 ; documentation TensorRT-LLM (cible DGX Spark) ; spécification Apple Mac Studio M3 Ultra pour les 819 Go/s.

Conversion de devise. Les prix originalement en USD ont été convertis en euros au taux indicatif 1 USD = 0,92 EUR (mi-2026) ; les prix de détail européens peuvent différer (TVA, marges locales). La RTX 5090 est donnée à son MSRP UE (2 099 €) avec son prix de rue de juillet 2026 (3 900 € et plus, relevés bestvaluegpu/VideoCardz) ; le tarif RTX PRO 6000 est le prix officiel NVIDIA de juillet 2026 (13 250 $, contre ~8 565 $ au lancement), gonflé comme le reste du marché par la pénurie DRAM.

Crédit image. Photo d’en-tête : NVIDIA DGX Spark par Daniel Lu, CC BY-SA 4.0, via Wikimedia Commons.

RTX Spark : le cousin Windows du DGX Spark, et le mur des 273 Go/s

RTX Spark n’est pas un DGX Spark renommé

Le silicium : Grace-Blackwell pour Windows

Les trois chiffres qu’on confond

Le « 1 pétaflop » décodé

Ce que ~273 Go/s changent pour l’inférence

RTX Spark face au reste du marché

Prix, disponibilité, et ce qui reste à confirmer

Pour qui, et pour quoi

Conclusion

Sources et méthode

Questions fréquentes

RTX Spark : le cousin Windows du DGX Spark, et le mur des 273 Go/s

RTX Spark n’est pas un DGX Spark renommé

Le silicium : Grace-Blackwell pour Windows

Les trois chiffres qu’on confond

Le « 1 pétaflop » décodé

Ce que ~273 Go/s changent pour l’inférence

RTX Spark face au reste du marché

Prix, disponibilité, et ce qui reste à confirmer

Pour qui, et pour quoi

Conclusion

Sources et méthode

Questions fréquentes

À lire ensuite

RTX 5090 vs H100 : quelle carte pour un LLM en local ?

HBM et NVLink : pourquoi les LLM sont limités par la mémoire

FP4 n'existe pas : il existe des FP4, et chaque runtime choisit son dialecte