À propos de LeCompute

Notre angle

Le compute IA est abondamment commenté, mais rarement expliqué. Les chiffres « pic » des constructeurs circulent plus vite que les mesures soutenues ; les comparatifs confondent débit brut et coût réel ; et la couche logicielle (runtimes, kernels, quantification) reste un angle mort de la presse tech francophone.

LeCompute prend le problème par le bas : du silicium au code. Nous décortiquons ce qui fait réellement la performance et le coût d'un service d'inférence : architecture mémoire, KV cache, interconnexions, formats numériques, ordonnancement avec des mesures reproductibles et sans hype.

Ce que nous couvrons

Cinq clusters de sujets, pensés comme une bibliothèque de référence plutôt qu'un fil d'actualité :

Silicon, GPU, mémoire HBM, interconnexions NVLink et microarchitecture : ce qui détermine vraiment la performance et le coût du compute IA, du die au datacenter.
Runtimes, vLLM, llama.cpp, TensorRT-LLM, KV cache et quantification : comment servir des modèles de langage efficacement, du datacenter au poste local.
Edge AI, Jetson, NPU, accélérateurs embarqués : déployer des modèles sous contraintes thermiques, mémoire et énergétiques, loin du cloud.
Coûts, Coût par token, prix du GPU cloud, location H100/H200/B200, arbitrage cloud / local / edge : l'économie réelle de l'inférence IA, chiffres à l'appui.
Kernel & Perf, eBPF, perf, traces, NUMA, ordonnancement : diagnostiquer et optimiser une stack d'inférence au niveau système, là où les abstractions s'arrêtent.

Nos principes éditoriaux

Mesures avant marketing. Nous reportons des débits soutenus, pas des pics théoriques.
Sourcer ce qui est sourçable. Chaque article cite sa méthode et ses références.
Expliquer le pourquoi. Un benchmark sans modèle mental n'apprend rien.
Pas de contenu creux. Si un sujet ne mérite pas une page solide, il n'a pas de page.

Qui écrit

Les analyses sont signées :

Killian Pluenet, développeur c/c++, systèmes embarqués & bas niveau. Développeur C/C++, systèmes embarqués et bas niveau. Lit le compute IA par là où il se joue vraiment : la mémoire, le silicium, la performance.
Christophe Gerardin, développeur c/c++, réseaux & infrastructure d'inférence. Réseaux et infrastructure du compute IA : architecturer une plateforme, servir des modèles, faire tenir l'ensemble à l'échelle. Un parcours en cybersécurité des systèmes industriels, mis ici au service du réseau et de l'infra.

Contact

Une correction, une donnée à partager, une proposition de sujet ? Écrivez à redaction@lecompute.fr. Le flux RSS permet de suivre les nouvelles publications.