Tous les dossiers - LeCompute

Coûts

Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.

Coût d'inférence
GPU cloud
API LLM
Auto-hébergement

Coûts

GPU cloud en France et en Europe : où louer H100, H200 et Blackwell

Où louer des GPU H100, H200 et Blackwell en France et en Europe en 2026 : Scaleway, OVHcloud, alternatives, prix relevés, souveraineté et pénurie.

GPU cloud
Souveraineté
Scaleway
OVHcloud

Edge AI

Jetson Thor, Hailo-10H, Coral : quel accélérateur edge en 2026 ?

Le paysage des accélérateurs edge a basculé : Jetson Thor ouvre un palier Blackwell, le Hailo-10H fait du GenAI — et Google Coral est abandonné. Comparatif 2026.

Jetson Thor
Hailo-10H
Google Coral
Edge AI

Kernel & Perf

eBPF et perf : observer une stack d'inférence LLM

Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d'une stack d'inférence : ordonnancement, page faults, I/O — là où les abstractions s'arrêtent.

eBPF
perf
Observabilité
Noyau Linux

Runtimes

KV cache : pourquoi votre LLM sature la mémoire

Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.

KV cache
PagedAttention
Quantification
Mémoire

Silicon

CUDA vs ROCm en 2026 : l'écart réel en production IA

CUDA vs ROCm en 2026 : le débat n'est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.

CUDA
ROCm
AMD
NVIDIA

Silicon

FP8, FP6, FP4 : ce que la basse précision change vraiment

FP8, FP6, FP4 : les formats numériques basse précision de l'inférence 2026. Formats à blocs MXFP4 et NVFP4, compromis portée/débit, et ce que le matériel supporte.

FP8
FP4
MXFP4
NVFP4

Silicon

AMD MI355X vs NVIDIA B200/B300 : le vrai match en 2026

AMD MI355X face à NVIDIA B200 et B300 : mémoire, bande passante, FP4 et le vrai écart — le scale-up NVLink et le logiciel. Comparatif sourcé, mi-2026.

AMD MI355X
NVIDIA B200
Blackwell
CDNA 4

Silicon

RTX 5090 vs H100 : quelle carte pour un LLM en local ?

RTX 5090 vs H100 pour faire tourner un LLM en local : 32 Go GDDR7 face à 80 Go HBM3, ce qui tient vraiment en VRAM, et pourquoi ce ne sont pas les mêmes produits.

RTX 5090
H100
LLM local
VRAM

Silicon

H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM

H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.

H100
B100
Blackwell
Hopper

Silicon

HBM et NVLink : pourquoi les LLM sont limités par la mémoire

Les LLM ne sont presque jamais limités par les FLOPS. Le vrai plafond — bande passante HBM, KV cache, interconnexions NVLink — et ce que ça change au dimensionnement.

HBM
NVLink
KV cache
Bande passante

Runtimes

vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?

Trois runtimes d'inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.

vLLM
llama.cpp
TensorRT-LLM
Inférence

Tous les articles