Auteur

Killian Pluenet

Développeur C/C++ — systèmes embarqués & bas niveau

Killian Pluenet est développeur C/C++ spécialisé en systèmes embarqués et programmation bas niveau. Il conçoit des firmwares sur architectures STM32 et passe son temps à comprendre ce qui se passe réellement sous le capot — de la communication entre composants à l'optimisation des ressources sur environnements contraints. Il est membre du Sophia Hack Lab, le hackerspace d'Antibes.

En parallèle, il développe Memtide, un orchestrateur de mémoire RAM et CXL — un sujet qui mêle gestion mémoire fine, architectures modernes et performance à très bas niveau. C'est ce même regard — mémoire, bande passante, ce qui se passe sous les abstractions — qu'il porte sur LeCompute : décortiquer le compute IA du silicium au code, sans hype.

C / C++
Systèmes embarqués
Programmation bas niveau
Architecture mémoire & CXL

Articles de Killian 15

Coûts

Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.

Coût d'inférence
GPU cloud
API LLM
Auto-hébergement

Coûts

GPU cloud en France et en Europe : où louer H100, H200 et Blackwell

Où louer des GPU H100, H200 et Blackwell en France et en Europe en 2026 : Scaleway, OVHcloud, alternatives, prix relevés, souveraineté et pénurie.

GPU cloud
Souveraineté
Scaleway
OVHcloud

Edge AI

Jetson Thor, Hailo-10H, Coral : quel accélérateur edge en 2026 ?

Le paysage des accélérateurs edge a basculé : Jetson Thor ouvre un palier Blackwell, le Hailo-10H fait du GenAI — et Google Coral est abandonné. Comparatif 2026.

Jetson Thor
Hailo-10H
Google Coral
Edge AI

Kernel & Perf

eBPF et perf : observer une stack d'inférence LLM

Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d'une stack d'inférence : ordonnancement, page faults, I/O — là où les abstractions s'arrêtent.

eBPF
perf
Observabilité
Noyau Linux

Runtimes

KV cache : pourquoi votre LLM sature la mémoire

Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.

KV cache
PagedAttention
Quantification
Mémoire

Silicon

CUDA vs ROCm en 2026 : l'écart réel en production IA

CUDA vs ROCm en 2026 : le débat n'est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.

CUDA
ROCm
AMD
NVIDIA

Silicon

FP8, FP6, FP4 : ce que la basse précision change vraiment

FP8, FP6, FP4 : les formats numériques basse précision de l'inférence 2026. Formats à blocs MXFP4 et NVFP4, compromis portée/débit, et ce que le matériel supporte.

FP8
FP4
MXFP4
NVFP4

Silicon

AMD MI355X vs NVIDIA B200/B300 : le vrai match en 2026

AMD MI355X face à NVIDIA B200 et B300 : mémoire, bande passante, FP4 et le vrai écart — le scale-up NVLink et le logiciel. Comparatif sourcé, mi-2026.

AMD MI355X
NVIDIA B200
Blackwell
CDNA 4

Silicon

RTX 5090 vs H100 : quelle carte pour un LLM en local ?

RTX 5090 vs H100 pour faire tourner un LLM en local : 32 Go GDDR7 face à 80 Go HBM3, ce qui tient vraiment en VRAM, et pourquoi ce ne sont pas les mêmes produits.

RTX 5090
H100
LLM local
VRAM

Silicon

H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM

H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.

H100
B100
Blackwell
Hopper

Silicon

HBM et NVLink : pourquoi les LLM sont limités par la mémoire

Les LLM ne sont presque jamais limités par les FLOPS. Le vrai plafond — bande passante HBM, KV cache, interconnexions NVLink — et ce que ça change au dimensionnement.

HBM
NVLink
KV cache
Bande passante

Runtimes

vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?

Trois runtimes d'inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.

vLLM
llama.cpp
TensorRT-LLM
Inférence

Runtimes

llama.cpp expliqué : GGUF, quantification et kernels

Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.

llama.cpp
GGUF
Quantification
Quantization

Edge AI

Jetson Orin et edge AI : LLM, vision et limites mémoire

Ce qui tourne vraiment sur un Jetson Orin hors datacenter : LLM quantifiés, vision temps réel — et les vraies limites, mémoire unifiée, thermique et arbitrage edge/cloud.

Jetson Orin
Edge AI
Embarqué
Vision

Edge AI

NPU vs GPU à l'edge : quel accélérateur pour l'inférence embarquée

NPU ou GPU embarqué pour l'inférence à l'edge ? Deux philosophies comparées sur l'efficacité énergétique, la flexibilité et le vrai piège : la chaîne de compilation.

NPU
GPU embarqué
Edge AI
Efficacité énergétique