À propos
Le média francophone de l'infrastructure IA
LeCompute est le média francophone de l'infrastructure IA : GPU, kernels, runtimes, edge AI et coût d'inférence, expliqués du silicium au code.
Notre angle
Le compute IA est abondamment commenté, mais rarement expliqué. Les chiffres « pic » des constructeurs circulent plus vite que les mesures soutenues ; les comparatifs confondent débit brut et coût réel ; et la couche logicielle — runtimes, kernels, quantification — reste un angle mort de la presse tech francophone.
LeCompute prend le problème par le bas : du silicium au code. Nous décortiquons ce qui fait réellement la performance et le coût d'un service d'inférence — architecture mémoire, KV cache, interconnexions, formats numériques, ordonnancement — avec des mesures reproductibles et sans hype.
Ce que nous couvrons
Trois clusters de sujets, pensés comme une bibliothèque de référence plutôt qu'un fil d'actualité :
- Silicon — GPU, mémoire HBM, interconnexions NVLink et microarchitecture : ce qui détermine vraiment la performance et le coût du compute IA, du die au datacenter.
- Runtimes — vLLM, llama.cpp, TensorRT-LLM, KV cache et quantification : comment servir des modèles de langage efficacement, du datacenter au poste local.
- Edge AI — Jetson, NPU, accélérateurs embarqués : déployer des modèles sous contraintes thermiques, mémoire et énergétiques, loin du cloud.
- Coûts — Coût par token, prix du GPU cloud, location H100/H200/B200, arbitrage cloud / local / edge : l'économie réelle de l'inférence IA, chiffres à l'appui.
- Kernel & Perf — eBPF, perf, traces, NUMA, ordonnancement : diagnostiquer et optimiser une stack d'inférence au niveau système, là où les abstractions s'arrêtent.
Nos principes éditoriaux
- Mesures avant marketing. Nous reportons des débits soutenus, pas des pics théoriques.
- Sourcer ce qui est sourçable. Chaque article cite sa méthode et ses références.
- Expliquer le pourquoi. Un benchmark sans modèle mental n'apprend rien.
- Pas de contenu creux. Si un sujet ne mérite pas une page solide, il n'a pas de page.
Qui écrit
Les analyses sont signées Killian Pluenet, développeur c/c++ — systèmes embarqués & bas niveau. Développeur C/C++, systèmes embarqués et bas niveau. Lit le compute IA par là où il se joue vraiment : la mémoire, le silicium, la performance.
Contact
Une correction, une donnée à partager, une proposition de sujet ? Écrivez à redaction@lecompute.fr. Le flux RSS permet de suivre les nouvelles publications.