Runtimes : vLLM, llama.cpp, TensorRT-LLM et inférence LLM

Runtimes

KV cache : pourquoi votre LLM sature la mémoire

Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.

KV cache
PagedAttention
Quantification
Mémoire

Runtimes

vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?

Trois runtimes d'inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.

vLLM
llama.cpp
TensorRT-LLM
Inférence

Runtimes

llama.cpp expliqué : GGUF, quantification et kernels

Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.

llama.cpp
GGUF
Quantification
Quantization

Articles — Runtimes

KV cache : pourquoi votre LLM sature la mémoire

vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?

llama.cpp expliqué : GGUF, quantification et kernels