Tous les articles

Coûts

Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.

7 min de lecture
  • Coût d'inférence
  • GPU cloud
  • API LLM
  • Auto-hébergement

Kernel & Perf

eBPF et perf : observer une stack d'inférence LLM

Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d'une stack d'inférence : ordonnancement, page faults, I/O — là où les abstractions s'arrêtent.

5 min de lecture
  • eBPF
  • perf
  • Observabilité
  • Noyau Linux

Runtimes

KV cache : pourquoi votre LLM sature la mémoire

Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.

6 min de lecture
  • KV cache
  • PagedAttention
  • Quantification
  • Mémoire

Silicon

CUDA vs ROCm en 2026 : l'écart réel en production IA

CUDA vs ROCm en 2026 : le débat n'est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.

5 min de lecture
  • CUDA
  • ROCm
  • AMD
  • NVIDIA

Silicon

AMD MI355X vs NVIDIA B200/B300 : le vrai match en 2026

AMD MI355X face à NVIDIA B200 et B300 : mémoire, bande passante, FP4 et le vrai écart — le scale-up NVLink et le logiciel. Comparatif sourcé, mi-2026.

5 min de lecture
  • AMD MI355X
  • NVIDIA B200
  • Blackwell
  • CDNA 4

Silicon

RTX 5090 vs H100 : quelle carte pour un LLM en local ?

RTX 5090 vs H100 pour faire tourner un LLM en local : 32 Go GDDR7 face à 80 Go HBM3, ce qui tient vraiment en VRAM, et pourquoi ce ne sont pas les mêmes produits.

5 min de lecture
  • RTX 5090
  • H100
  • LLM local
  • VRAM

Runtimes

vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?

Trois runtimes d'inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.

5 min de lecture
  • vLLM
  • llama.cpp
  • TensorRT-LLM
  • Inférence