LeCompute — analyses techniques de l'infrastructure et du compute IA

À la une

TorchTPU, XLA, JAX : comment Google attaque le verrou logiciel de NVIDIA

TorchTPU, PyTorch/XLA, JAX, XLA et vLLM forment une pile dont la clé de voûte est un compilateur. Comment Google s'attaque au seul actif qui retient les développeurs chez NVIDIA : le coût de quitter CUDA.

30 min de lecture

LeCompute décortique l'infrastructure de l'IA — GPU et silicium, mémoire HBM et interconnexions, runtimes d'inférence comme vLLM ou llama.cpp, quantification et edge AI. Des analyses techniques et des benchmarks reproductibles, du silicium au code, sans hype.

Analyses techniques de l'infrastructure IA

Voir tous les dossiers →

Silicon

RTX Spark : le cousin Windows du DGX Spark, et le mur des 273 Go/s

Le RTX Spark (N1X) n'est pas un DGX Spark renommé : c'est le SoC Grace-Blackwell sous Windows on Arm, 128 Go de mémoire unifiée. Pourquoi ce sont les ~273 Go/s — pas le « pétaflop » — qui décident de ce qu'il sait faire.

19 min de lecture
  • RTX Spark
  • DGX Spark
  • Grace-Blackwell
  • Mémoire unifiée

Silicon

Combien de VRAM pour faire tourner un LLM en local ?

Combien de VRAM faut-il pour un LLM en local ? La règle des ~2 Go par milliard de paramètres, le poids du KV cache, l'effet de la quantification — et ce qui tient vraiment sur votre carte.

7 min de lecture
  • VRAM
  • LLM local
  • Quantification
  • KV cache

Silicon

Vera Rubin : la fin de l'inférence GPU homogène

NVIDIA Vera Rubin n'est pas qu'un GPU plus rapide : l'inférence éclate en trois tiers — prefill GPU, decode LPU, orchestration CPU — coordonnés par Dynamo.

19 min de lecture
  • NVIDIA Rubin
  • Vera CPU
  • HBM4
  • Groq LPU