Infrastructure IA : GPU, silicium et inférence

À la une

AMD Infera face à Dynamo et llm-d : le routeur prend le contrôle

AMD lance Infera pour router les requêtes selon le KV cache, séparer prefill et decode, puis déporter le cache hors du GPU. Face à Dynamo et llm-d, la différence se joue moins sur les fonctions promises que sur le périmètre réellement livré.

LeCompute décortique l'infrastructure de l'IA : GPU et silicium, mémoire HBM et interconnexions, runtimes d'inférence comme vLLM ou llama.cpp, quantification et edge AI. Des analyses techniques et des benchmarks reproductibles, du silicium au code, sans hype.

Read our articles in English

Analyses techniques de l'infrastructure IA

Voir tous les dossiers →

Silicon

AMD MI455X contre NVIDIA Rubin : la mémoire suffit-elle à battre NVLink ?

Le MI455X embarque 432 Go de HBM4, contre 288 Go pour Rubin. Mais AMD doit aussi prouver que son tissu UALoE transforme cet avantage de capacité en performances au niveau du rack.

AMD MI455X
NVIDIA Rubin
HBM4
UALink

Edge AI

FastFlowLM rejoint AMD : le NPU Ryzen AI devient crédible pour les LLM locaux

AMD intègre l'équipe FastFlowLM, dont le runtime exécute déjà des LLM sur les NPU XDNA2 des Ryzen AI. Architecture, benchmarks, consommation et limites mémoire.

FastFlowLM
AMD Ryzen AI
NPU
XDNA2

Runtimes

GGUF, GPTQ, AWQ : anatomie de trois façons de compresser un LLM

GGUF est un format de fichier, GPTQ et AWQ des algorithmes. À 4 bits, chacun attaque autrement le problème des valeurs aberrantes. Anatomie de trois constructions, de la Hessienne de GPTQ aux k-quants de GGUF, et de ce que le choix du format décide pour vous.

GGUF
GPTQ
AWQ
Quantification

Coûts

Stargate, Spud et abonnements : le levier compute de la remontada d'OpenAI

10 gigawatts « sécurisés avec des années d'avance », 0,3 gigawatt branché à Abilene. Derrière la remontada d'OpenAI dans l'IA de codage, un pari compute qu'il faut lire en trois états : le sécurisé, le construit, le branché. Et une économie d'abonnements que les agents ont fait craquer.

Stargate
OpenAI
Compute
Datacenter

Runtimes

SWE-Bench Pro désavoué : peut-on encore mesurer les agents de codage ?

Le 8 juillet 2026, OpenAI a désavoué SWE-Bench Pro : ~30 % de tâches cassées. C'est le troisième instrument de référence déclaré mort en trois générations. Anatomie d'une crise de métrologie : plafond de bruit, contamination, et un effet harnais qui vaut une génération de modèle.

Benchmarks
SWE-bench
Agents de codage
Évaluation

Coûts

GPT-5.6 et la fusion Codex : anatomie de la remontada d'OpenAI

Le 8 juillet 2026, OpenAI désavoue le benchmark de référence du codage agentique. Le 9, il fusionne Codex dans l'app ChatGPT et lance GPT-5.6. Derrière la séquence, une remontada qui se joue moins sur l'intelligence que sur les prix, les forfaits et le harnais.

GPT-5.6
Codex
Claude Code
OpenAI

Voir les 33 autres dossiers