RTX Spark n’est pas un DGX Spark renommé

La couverture presse du 31 mai 2026 a immédiatement mélangé deux produits que NVIDIA vend séparément, et l’amalgame mérite d’être défait avant toute analyse technique. Le DGX Spark existe depuis 2025 : une mini-station de développement IA sous Linux (DGX OS), bâtie sur le superchip GB10, pensée pour le data scientist qui veut un nœud Grace-Blackwell sur son bureau. Le RTX Spark annoncé à Computex est autre chose : un SoC grand public, codename N1X, qui tourne sous Windows on Arm et vise créateurs, développeurs et joueurs.

Les deux partagent la philosophie — un CPU Arm et un GPU Blackwell sur le même package, 128 Go de mémoire unifiée — et Jensen Huang a lui-même décrit le N1X comme « techniquement très proche » du GB10 en Q&A presse. Mais proche n’est pas identique. Ce sont deux puces, deux systèmes d’exploitation, deux formats, deux fiches produit, et probablement deux jeux de fonctionnalités réseau distincts. Lire le RTX Spark comme un DGX Spark sous un autre nom, c’est rater ce que NVIDIA fait réellement : entrer pour la première fois sur le marché du PC Windows-on-Arm premium, là où Qualcomm était jusqu’ici seul.

Ce qui rend l’analyse possible malgré le quasi-silence de NVIDIA sur les specs détaillées, c’est précisément cette parenté. Le GB10 du DGX Spark est documenté, mesuré, livré ; le N1X ne l’est pas encore. Tout le travail consiste donc à dériver du jumeau ce que NVIDIA n’a pas publié sur le N1X — en signalant à chaque fois ce qui est officiel, ce qui vient du GB10, et ce qui relève de la fuite ou de l’estimation.

Le silicium : Grace-Blackwell pour Windows

Le N1X fusionne sur un seul package un CPU Arm et un GPU Blackwell, reliés par un lien cohérent. Chaque bloc a sa généalogie.

BlocRTX Spark (N1X)Origine du chiffre
CPU20 cœurs Arm — 10× Cortex-X925 + 10× Cortex-A725, co-conçu MediaTekFuite / reporting
GPUBlackwell « RTX », 6 144 cœurs CUDA (≈ RTX 5070)Officiel (communiqué)
Tensor / RT CoresTensor 5ᵉ gén. (FP4/NVFP4), RT 4ᵉ gén.Officiel + GB10
Compute capabilitySM121 (≠ SM120 RTX 5090, ≠ SM100 datacenter)GB10 (Backend.AI)
Gravure3 nm TSMC (« 3nm-class »)Officiel
Mémoirejusqu'à 128 Go LPDDR5X unifiée, bus 256 bits, ~273 Go/sOfficiel (128 Go) + GB10 (273 Go/s)
Lien CPU↔GPUNVLink-C2C, ~600 Go/s agrégésHot Chips 2025
OSWindows on ArmOfficiel
TDP~45–110 W selon l'OEM (alims jusqu'à 140 W)Non officiel
Tableau 1 — Architecture du RTX Spark (N1X), best-reported au 5 juin 2026. Les figures GPU/mémoire sont dérivées du GB10 jumeau ; le découpage des cœurs vient du reporting heise/c't et de fuites, pas d'une fiche officielle NVIDIA.

Le CPU est un 20 cœurs Arm — dix Cortex-X925 de performance, dix Cortex-A725 d’efficacité — co-conçu avec MediaTek, qui fournit les chiplets CPU. Les X925 sont les mêmes cœurs que dans le Dimensity 9400 pour smartphones : NVIDIA n’a pas designé un CPU serveur custom comme le cœur Olympus du Vera CPU, il a assemblé une plateforme à partir d’IP Arm de pointe.

Le GPU est un Blackwell « RTX » à 6 144 cœurs CUDA Compute Unified Device Architecture. La plateforme de calcul GPU de NVIDIA — langage, compilateur et bibliothèques (cuBLAS, cuDNN). Son écosystème logiciel est le principal verrou face aux alternatives comme ROCm ; à l'exécution, son « contexte » réserve aussi une part incompressible de VRAM. — le même compte que la GeForce RTX 5070 desktop — avec des Tensor Cores Unités matérielles spécialisées dans les multiplications de matrices à basse précision, introduites par NVIDIA avec Volta (2017). Chaque génération ajoute des formats supportés : FP16 → FP8 (Hopper) → FP6/FP4 (Blackwell). Ce sont elles qui exécutent l'essentiel du calcul d'inférence. de 5ᵉ génération qui câblent le FP4 Format à virgule flottante 4 bits — la frontière 2026 de l'inférence à haut débit. Quatre fois moins de mémoire que le FP16, mais une portée dynamique très étroite : ne tient qu'avec un scaling fin via formats à blocs (MXFP4, NVFP4). et les RT Cores de 4ᵉ génération pour le rendu. Sur le GB10 jumeau, NVIDIA décline ce GPU en 48 SM Streaming Multiprocessor. Bloc de calcul indépendant d'un GPU NVIDIA, contenant ses propres unités d'exécution, registres, mémoire partagée et Tensor Cores. Un H100 SXM5 en compte 132. L'occupation des SM est la métrique-clé de saturation d'un GPU. / 192 Tensor Cores. C’est le GPU qui justifie l’étiquette « RTX » et la promesse gaming.

Une nuance d’ingénierie compte pour qui écrit des kernels. Le Blackwell du Spark n’est pas le Blackwell datacenter. Le GB10 — donc le N1X — est en compute capability SM121, distinct du SM120 d’une RTX 5090 et du SM100 d’un B200. Il supporte FP4/FP6/FP8 et les Tensor Cores 5ᵉ gén., mais son modèle de programmation des Tensor Cores est plus proche du mma.sync d’Ampere que des instructions tcgen05 du Blackwell datacenter — il lui manque la TMEM et les MMA coopératives 2-SM. Voici ce que ça implique concrètement : un développeur de kernels CUDA bas niveau qui vise les trois cibles doit maintenir trois chemins de code — Hopper, Blackwell datacenter, Blackwell grand public — et non deux. Pour l’utilisateur de runtimes (vLLM, TensorRT-LLM, llama.cpp), la couche d’abstraction absorbe la différence ; pour celui qui écrit le kernel, elle est réelle.

Les trois chiffres qu’on confond

C’est ici que la couverture grand public dérape le plus, et c’est ici que le lectorat LeCompute attend de la précision. Trois valeurs circulent autour du RTX Spark, exprimées dans la même unité, et la presse les interchange — alors qu’elles décrivent trois choses différentes.

MétriqueValeurCe que c'est
Bande passante mémoire LPDDR5X~273 Go/sDébit de la mémoire système unifiée — le mur du decode
Bus mémoire256 bits (N1X) / 128 bits (N1)Largeur du canal, pas un débit
NVLink-C2C~600 Go/s agrégésLien cohérent CPU↔GPU — pas la mémoire
Tableau 2 — Trois bandes passantes à ne pas confondre. La seule qui fixe le débit de génération est la première.

La bande passante mémoire est ~273 Go/s. NVIDIA n’a publié aucun chiffre officiel pour le N1X ; celui-ci vient mot pour mot de la fiche GB10 : « Memory Bandwidth: 273 GB/s · Memory Channels: 16 channels (256 bit) LPDDR5X 8533 ». L’arithmétique le confirme — un bus 256 bits transporte 32 octets par cycle, et à 8 533 MT/s cela donne 32 × 8 533 ≈ 273 Go/s. Le « jusqu’à 300 Go/s » qu’on lit ailleurs est l’arrondi d’un clock de 9,4 Gbps évoqué à Hot Chips 2025 ; la valeur livrée mesurée est 273.

Les ~600 Go/s désignent autre chose : la bande passante agrégée du NVLink-C2C, le lien cohérent qui relie le die CPU au die GPU à l’intérieur du package. NVIDIA le décrit à Hot Chips 2025 comme offrant « 5× la bande passante de PCIe Gen 5 » — c’est un lien d’interconnexion interne, pas un débit vers la mémoire système. Le confondre avec la bande passante mémoire revient à confondre la largeur du NVLink Interconnexion propriétaire NVIDIA entre GPU. NVLink 5 (Blackwell) atteint 1,8 To/s par lien ; NVLink 6 (Rubin) double à 3,6 To/s. Permet à plusieurs cartes de partager leur mémoire et de se comporter quasi comme un seul accélérateur. d’un nœud datacenter avec le débit HBM High Bandwidth Memory. Mémoire empilée en couches, soudée à proximité immédiate du GPU, avec une bande passante de plusieurs To/s — contre ~50 Go/s pour de la DDR5. Indispensable au-delà d'une certaine taille de modèle. d’une carte : deux étages différents de la hiérarchie de transport.

Cette mémoire est unifiée et cohérente : le GPU n’a pas de VRAM dédiée, il accède à la LPDDR5X via les contrôleurs mémoire logés dans le die CPU MediaTek, de façon transparente sur le NVLink-C2C. C’est le même principe d’architecture qu’un Apple Silicon ou qu’un Jetson Thor à la marge embarquée — un seul pool que CPU et GPU se partagent dynamiquement, sans copie explicite. L’avantage est la capacité : 128 Go accessibles au GPU, là où une carte grand public plafonne à 32. Le coût est le débit : la LPDDR5X est de la mémoire mobile, pas de la GDDR7 ni de la HBM.

Le « 1 pétaflop » décodé

Le chiffre d’accroche de l’annonce — 1 petaflop — est exact et trompeur à la fois, et il faut le déplier comme tout chiffre brut. La note de bas de page officielle de NVIDIA est explicite : « Theoretical FP4 TOPS using the sparsity feature ». Trois mots y font tout le travail.

Theoretical : c’est un pic d’unités de calcul, pas un débit soutenu sur une charge réelle. FP4 : c’est le format le plus dense des Tensor Cores 5ᵉ gén., quatre bits par valeur — pas du FP16. Sparsity : c’est la quantification Réduction du nombre de bits codant chaque poids d'un modèle — de 16 bits vers 8, 4, voire moins. Elle divise l'empreinte mémoire d'autant, au prix d'une perte de précision contrôlée, sans changer le nombre de paramètres. structurée 2:4, où le matériel ignore la moitié des poids préalablement mis à zéro, ce qui double le débit annoncé sans calculer davantage. Retirez la sparsité et vous obtenez ~500 TFLOPS FP4 denses — la moitié du chiffre vitrine. Montez en FP16 ou FP32, formats où l’on entraîne et où l’on sert encore beaucoup, et le débit retombe à celui d’un GPU de milieu de gamme, classe RTX 5060/5070.

Ce pic FP4 n’est pas inutile — il sert le prefill Phase initiale d'une inférence LLM : tous les tokens du prompt sont traités d'un coup. Intensité arithmétique élevée — le GPU sature ses Tensor Cores. C'est l'inverse du decode qui suit. , la phase où le modèle traite tout le prompt d’un coup et sature les Tensor Cores. Mais un service d’inférence réel est presque toujours dominé par la phase suivante, le decode Phase de génération autorégressive d'un LLM : un token est produit à la fois, en relisant tout le KV cache. Intensité arithmétique très basse — le GPU passe l'essentiel du temps à attendre la mémoire. Un service d'inférence réel est presque toujours dominé par le decode. , et celle-là ne lit pas la fiche des FLOPS.

Ce que ~273 Go/s changent pour l’inférence

Voici le passage qui décide de tout le reste, et il tient à un mécanisme déjà central dans le rapport entre HBM et débit LLM. La génération de tokens d’un LLM est autorégressive : chaque nouveau token relit l’intégralité des poids du modèle plus tout le KV cache Mémoire des vecteurs clé et valeur déjà calculés pour chaque token traité par un LLM. Évite de recalculer l'attention sur tout l'historique, au prix d'une consommation mémoire qui croît avec le contexte. accumulé. Pour quelques milliards d’opérations utiles, le GPU traverse des dizaines de gigaoctets de mémoire. La charge est memory-bound — le silicium passe l’essentiel de son temps à attendre la mémoire, et c’est la bande passante, pas les FLOPS, qui fixe le plafond.

Posons la calculette sur un cas dense. Un modèle de 70 milliards de paramètres servi en FP8 Format à virgule flottante 8 bits. Format de travail polyvalent pour l'inférence (et l'entraînement) sur GPU récents. Divise par 2 l'empreinte mémoire et le débit nécessaires par rapport au FP16, pour une perte de précision marginale sur la plupart des modèles. pèse ~70 Go de poids, qu’il faut relire à chaque token. Le plancher physique de génération est une division : 70 Go ÷ 273 Go/s ≈ 256 ms par token, soit ~4 tokens par seconde au plafond mémoire, pour une seule séquence. Une RTX 5090, avec ses ~1 792 Go/s de GDDR7, lirait les mêmes poids en ~39 ms — mais elle ne peut pas tenir un 70 B FP8, ses 32 Go débordent. C’est tout le paradoxe du Spark : il charge le modèle que la 5090 refuse, puis le sert au rythme que sa mémoire mobile autorise. La même mémoire mobile qui offre les 128 Go impose les 273 Go/s ; on n’a pas l’un sans l’autre.

L’échappatoire n’est pas une astuce, c’est un type de modèle. Les architectures MoE (Mixture of Experts, où un routeur n’active que quelques experts par token sur la totalité disponible) cassent l’équation. Sur un GPT-OSS 120B, seuls ~4 experts sur 128 s’activent par token : la totalité du modèle — ~80 Go — doit résider en mémoire, mais chaque token n’en lit qu’une fraction. Le coût mémoire par token s’effondre, et le débit de decode redevient utilisable alors même que le modèle pèse 80 Go. C’est précisément la raison d’être des 128 Go : charger tout le modèle, puis ne payer en bande passante que le prix des experts actifs. Pour un modèle dense, la même capacité ne sert qu’à loger le modèle ; elle ne le fait pas tourner vite.

Les seuls chiffres mesurés dont on dispose viennent du DGX Spark sous Linux — à utiliser comme proxy, en gardant à l’esprit que les perfs Windows-on-Arm du N1X peuvent différer (drivers signalés immatures début 2026). Le motif y est sans ambiguïté.

ChargePrefill (tps)Decode (tps)
GPT-OSS 20B (MXFP4, Ollama) — DGX Spark≈ 2 053≈ 50
GPT-OSS 20B — RTX 5090 (réf.)≈ 8 519≈ 205
GPT-OSS 120B (MXFP4, llama.cpp) — DGX Spark≈ 1 723≈ 38
GPT-OSS 120B — trio de RTX 3090 (réf.)≈ 1 642≈ 124
Tableau 3 — Débits mesurés sur DGX Spark (GB10, Linux), à titre indicatif pour le N1X. Prefill = traitement du prompt (compute-bound) ; decode = génération (memory-bound). Sources LMSYS (13 oct. 2025) et communautaires.

Le DGX Spark tient le prefill — il fait jeu égal avec un trio de RTX 3090 sur le GPT-OSS 120B, parce que le prefill est compute-bound et que le pic FP4 sert là. Mais sur le decode, il génère trois à quatre fois moins vite que des cartes à mémoire GDDR : la 5090 et le trio de 3090 ont la bande passante, le Spark a la capacité. LMSYS conclut sa revue d’une phrase qui résume l’objet : « the Spark’s unified LPDDR5x memory bandwidth is the main limiting factor ». Le RTX Spark hérite de cette mémoire et de cette limite à l’identique.

Reste un levier logiciel propre à l’écosystème NVIDIA : les formats FP4. Le NVFP4 — la variante NVIDIA à blocs de 16 valeurs et scaling à deux niveaux, plus fine que le MXFP4 standard — est câblé dans les Tensor Cores du Spark, mais il n’est exploité matériellement que via TensorRT-LLM ou NIM ; un GGUF GPT-Generated Unified Format. Format de fichier de llama.cpp qui stocke dans un seul fichier les tenseurs, leurs types de quantification, le vocabulaire et les métadonnées du modèle. Sa structure alignée permet de le lire par mmap — le modèle « démarre » en une fraction de seconde. en llama.cpp utilise son propre schéma. Quantifier agressivement les poids réduit les octets lus par token, donc déplace un peu le plafond memory-bound — mais ne le supprime pas. Le batching continu Ordonnancement à l'itération — ajouter et retirer des requêtes du batch à chaque pas de génération, au lieu d'attendre qu'un batch entier se termine. Formalisé par Orca (OSDI 2022), popularisé par vLLM. Multiplie par 2 à 4 le débit d'un serveur d'inférence sous forte concurrence. aide aussi : servir plusieurs requêtes concurrentes amortit le coût de relecture des poids sur tout le batch. La parade au mur des 273 Go/s tient en trois gestes — modèles MoE, quantification NVFP4/MXFP4, batching — aucun ne change la mémoire, tous contournent sa lenteur.

RTX Spark face au reste du marché

Le bon repère n’est pas « est-ce un bon GPU » mais « quel arbitrage capacité/bande passante ». Mis en regard des machines qu’un acheteur compare réellement, le Spark occupe une case précise.

SystèmeMémoireBP mémoirePrix indicatif
RTX Spark (N1X)128 Go LPDDR5X unifiée~273 Go/s≈ 2 667 € (est.)
DGX Spark (GB10)128 Go LPDDR5X unifiée~273 Go/s≈ 3 679 € → 4 323 €
Mac Studio M3 Ultrajusqu'à 512 Go unifiée~819 Go/sdès ≈ 3 679 €
RTX 509032 Go GDDR7~1 792 Go/s≈ 2 099 €
RTX 6000 Pro Blackwell96 Go GDDR7 ECC~1 792 Go/s≈ 7 360 €+
Tableau 4 — RTX Spark face aux machines concurrentes. Prix indicatifs en euros, convertis à 0,92 USD/EUR (voir Sources et méthode). Les valeurs FP4 sont des pics sparse constructeur.

Face au DGX Spark, c’est le même couple capacité/bande passante — la différence est l’OS (Windows vs Linux), le format (PC grand public vs mini-station), le prix estimé plus bas, et probablement l’absence du clustering ConnectX-7 que le DGX Spark expose pour relier deux unités. Si votre besoin est un nœud de dev IA Linux, le DGX Spark reste le produit ; si c’est un PC Windows premium qui sait aussi faire de l’inférence locale, c’est le RTX Spark.

Face au Mac Studio M3 Ultra, l’arbitrage est net. Apple offre trois fois la bande passante (~819 contre ~273 Go/s) et jusqu’à 512 Go — donc une génération de tokens nettement plus rapide et des modèles plus gros. Mais pas de FP4 matériel ni de CUDA Compute Unified Device Architecture. La plateforme de calcul GPU de NVIDIA — langage, compilateur et bibliothèques (cuBLAS, cuDNN). Son écosystème logiciel est le principal verrou face aux alternatives comme ROCm ; à l'exécution, son « contexte » réserve aussi une part incompressible de VRAM. . Le Spark gagne au prefill et sur l’écosystème CUDA/TensorRT ; le Mac gagne au decode et à la capacité. Une astuce communautaire combine les deux en serving désagrégé — DGX Spark au prefill, Mac Studio au decode — pour un gain de ~2,8× sur le Mac seul.

Face à une RTX 5090 ou une RTX 6000 Pro, c’est l’arbitrage exact qui structure déjà le match entre carte grand public et carte datacenter. Les cartes GDDR7 ont ~6,5× la bande passante du Spark — donc ~4× son débit de génération sur les modèles qui tiennent dans leur VRAM. Mais 32 Go (5090) ou 96 Go (6000 Pro) plafonnent la taille des modèles. Le Spark échange la vitesse brute contre la capacité : il charge un 120 B ou un 70 B qu’une 5090 ne peut pas, au prix d’un débit token plus faible. Pour savoir précisément ce qui tient dans chaque palier de mémoire, le calculateur de VRAM applique la formule complète.

Prix, disponibilité, et ce qui reste à confirmer

Aucun prix n’est officiel. Les estimations les plus citées viennent d’un rapport Morgan Stanley relayé le 2 juin 2026 : les PC IA à N1X auraient besoin de se vendre autour de 2 667 € (configs de base), les modèles N1 autour de 1 655 € — chiffres convertis de 2 899 $ et 1 799 $, et qui concernent les configurations d’entrée (16–32 Go, 512 Go–1 To de SSD). Une machine 128 Go multi-To coûtera bien plus. PCWorld cite des sources OEM autour de 2 300 € (N1X) et 1 840 € (N1). La cible explicite est le MacBook Pro M5 Pro, autour de 1 930 €.

La disponibilité est annoncée pour l’automne 2026, avec un risque de glissement lié aux drivers Windows-on-Arm signalés immatures début 2026. Tous les portables exposés à Computex étaient des mockups non fonctionnels ; seuls les systèmes internes de NVIDIA tournaient. Plus de 30 portables et ~10 desktops sont attendus chez ASUS, Dell, HP, Lenovo, Microsoft Surface et MSI, avec Acer et Gigabyte ensuite.

Pour qui, et pour quoi

La décision se lit sur la forme de votre charge, pas sur la fiche.

Pour charger un gros modèle en local — un MoE de 100 à 120 B que nulle carte grand public ne tient — le RTX Spark est exactement l’outil : 128 Go de mémoire unifiée, et un coût mémoire par token faible si le modèle est MoE. Pour un PC créateur Windows qui doit aussi faire de l’inférence et du rendu accéléré CUDA, c’est la première machine Windows-on-Arm à offrir 100 % de la stack NVIDIA. Pour générer vite sur un modèle dense — un 70 B servi en qualité à plusieurs dizaines de tokens/s — ce n’est pas la bonne machine : sa mémoire mobile l’en empêche par construction, et une carte GDDR ou un Mac Studio à plus grande bande passante reste devant. Pour un nœud de dev IA pur sous Linux, le DGX Spark jumeau, ou la location d’un GPU cloud à l’heure, reste l’option rationnelle.

Conclusion

Le RTX Spark ne change pas la limite fondamentale qu’il partage avec le DGX Spark : même type de mémoire, même bus, mêmes ~273 Go/s. Son apport est la capacité et l’efficacité énergétique d’un SoC, pas le débit token sur modèle dense. La vraie question n’est donc pas « combien de pétaflops » mais celle que pose tout achat de machine d’inférence : quelle bande passante pour relire vos poids à chaque token, et combien de mémoire pour les loger une fois posés ? Le Spark répond fort à la seconde, modestement à la première.

Ce qui déplacera ce mur n’est pas un meilleur GPU, c’est une meilleure mémoire. NVIDIA s’engage publiquement sur trois générations : Grace-Blackwell aujourd’hui, puis une paire Vera Rubin en LPDDR6, puis Rosa Feynman. La LPDDR6 est précisément le levier qui relèverait les 273 Go/s d’un SoC grand public — et c’est la même logique de spécialisation par phase qui redessine déjà l’inférence datacenter. Le RTX Spark de 2026 est la première marche : un pari sur la capacité unifiée, en attendant que la bande passante mobile rattrape son retard.

Sources et méthode

Cet article s’appuie sur un dossier de recherche interne arrêté au 5 juin 2026, l’annonce du RTX Spark datant des 31 mai / 1ᵉʳ juin 2026 à Computex/GTC Taipei. NVIDIA n’ayant publié quasiment aucune spec officielle détaillée du N1X, une part des chiffres est dérivée du GB10 jumeau (DGX Spark) ou de fuites — chaque étiquette ci-dessous le précise.

Faits vérifiés. Le communiqué newsroom NVIDIA donne le GPU à 6 144 cœurs CUDA, le « 1 petaflop », les 128 Go de mémoire unifiée, le CPU 20 cœurs et l’OS Windows on Arm. La bande passante mémoire ~273 Go/s, le bus 256 bits (16 canaux LPDDR5X-8533) et la compute capability SM121 sont des faits vérifiés sur le GB10 jumeau (fiche DGX Spark ; analyse Backend.AI, février 2026), pas sur le N1X — NVIDIA n’a publié aucun chiffre de bande passante pour le RTX Spark. Le NVLink-C2C à ~600 Go/s agrégés et le ratio « 5× PCIe Gen 5 » viennent de la présentation Hot Chips 2025. La note « Theoretical FP4 TOPS using the sparsity feature » est la note de bas de page officielle NVIDIA ; le ~500 TFLOPS FP4 dense en découle (sparsité 2:4 = ×2).

Estimations crédibles. Les prix (≈ 2 667 € / 1 655 € pour N1X / N1) sont des estimations d’analystes Morgan Stanley relayées par Max Weinbach le 2 juin 2026, non confirmées par NVIDIA, dans un contexte de pénurie DRAM/NAND qui a déjà fait passer le DGX Spark de 3 999 $ à 4 699 $. Les sources OEM PCWorld (≈ 2 300 € / 1 840 €) convergent à l’ordre de grandeur. Le découpage des cœurs (10+10, 9+9, 8+4), les bus 256/128 bits et le TDP 45–110 W sont best-reported (heise/c’t, fuites VideoCardz), non officiels.

Proxy de mesure. Tous les débits tokens/s (GPT-OSS 20B et 120B, prefill/decode) sont mesurés sur le DGX Spark sous Linux, pas sur le RTX Spark sous Windows : revue LMSYS du 13 octobre 2025, benchmarks communautaires (Benjamin Marie, The Kaitchup ; discussions llama.cpp #16578). Les perfs Windows-on-Arm du N1X peuvent différer (drivers signalés immatures). Les références RTX 5090 / RTX 3090 sont des mesures tierces sur les mêmes charges.

Hypothèses assumées. Le plancher physique de ~4 tokens/s sur un 70 B FP8 dense (70 Go ÷ 273 Go/s) est un calcul de plafond mémoire pour une seule séquence, pas un débit applicatif. Le raisonnement MoE (octets lus par token réduits par le routage des experts) est un mécanisme, pas une mesure sur le N1X. La projection LPDDR6/Vera Rubin/Feynman s’appuie sur la roadmap publique NVIDIA, sans calendrier détaillé.

Sources primaires. Communiqué NVIDIA Newsroom (annonce Computex 2026) ; fiche technique DGX Spark / GB10 ; NVIDIA Developer Blog — Introducing NVFP4 ; documentation TensorRT-LLM (cible DGX Spark) ; spécification Apple Mac Studio M3 Ultra pour les 819 Go/s.

Conversion de devise. Les prix originalement en USD ont été convertis en euros au taux indicatif 1 USD = 0,92 EUR (mi-2026) ; les prix de détail européens peuvent différer (TVA, marges locales). La RTX 5090 est donnée à son MSRP UE (~2 099 €), supérieur au MSRP US converti.

Crédit image. Photo d’en-tête : NVIDIA DGX Spark par Daniel Lu, CC BY-SA 4.0, via Wikimedia Commons.