Auteur

Killian Pluenet

Développeur C/C++ — systèmes embarqués & bas niveau

Killian Pluenet est développeur C/C++ spécialisé en systèmes embarqués et programmation bas niveau. Il conçoit des firmwares sur architectures STM32 et passe son temps à comprendre ce qui se passe réellement sous le capot — de la communication entre composants à l'optimisation des ressources sur environnements contraints. Il est membre du Sophia Hack Lab, le hackerspace d'Antibes.

En parallèle, il développe Memtide, un orchestrateur de mémoire RAM et CXL — un sujet qui mêle gestion mémoire fine, architectures modernes et performance à très bas niveau. C'est ce même regard — mémoire, bande passante, ce qui se passe sous les abstractions — qu'il porte sur LeCompute : décortiquer le compute IA du silicium au code, sans hype.

  • C / C++
  • Systèmes embarqués
  • Programmation bas niveau
  • Architecture mémoire & CXL

Articles de Killian 15

Coûts

Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.

7 min de lecture
  • Coût d'inférence
  • GPU cloud
  • API LLM
  • Auto-hébergement

Kernel & Perf

eBPF et perf : observer une stack d'inférence LLM

Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d'une stack d'inférence : ordonnancement, page faults, I/O — là où les abstractions s'arrêtent.

5 min de lecture
  • eBPF
  • perf
  • Observabilité
  • Noyau Linux

Runtimes

KV cache : pourquoi votre LLM sature la mémoire

Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.

6 min de lecture
  • KV cache
  • PagedAttention
  • Quantification
  • Mémoire

Silicon

CUDA vs ROCm en 2026 : l'écart réel en production IA

CUDA vs ROCm en 2026 : le débat n'est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.

5 min de lecture
  • CUDA
  • ROCm
  • AMD
  • NVIDIA

Silicon

AMD MI355X vs NVIDIA B200/B300 : le vrai match en 2026

AMD MI355X face à NVIDIA B200 et B300 : mémoire, bande passante, FP4 et le vrai écart — le scale-up NVLink et le logiciel. Comparatif sourcé, mi-2026.

5 min de lecture
  • AMD MI355X
  • NVIDIA B200
  • Blackwell
  • CDNA 4

Silicon

RTX 5090 vs H100 : quelle carte pour un LLM en local ?

RTX 5090 vs H100 pour faire tourner un LLM en local : 32 Go GDDR7 face à 80 Go HBM3, ce qui tient vraiment en VRAM, et pourquoi ce ne sont pas les mêmes produits.

5 min de lecture
  • RTX 5090
  • H100
  • LLM local
  • VRAM

Runtimes

vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?

Trois runtimes d'inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.

5 min de lecture
  • vLLM
  • llama.cpp
  • TensorRT-LLM
  • Inférence

Runtimes

llama.cpp expliqué : GGUF, quantification et kernels

Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.

5 min de lecture
  • llama.cpp
  • GGUF
  • Quantification
  • Quantization

Edge AI

Jetson Orin et edge AI : LLM, vision et limites mémoire

Ce qui tourne vraiment sur un Jetson Orin hors datacenter : LLM quantifiés, vision temps réel — et les vraies limites, mémoire unifiée, thermique et arbitrage edge/cloud.

5 min de lecture
  • Jetson Orin
  • Edge AI
  • Embarqué
  • Vision