Runtimes
KV cache : pourquoi votre LLM sature la mémoire
Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.
Runtimes & Inférence
vLLM, llama.cpp, TensorRT-LLM, KV cache et quantification : comment servir des modèles de langage efficacement, du datacenter au poste local.
3 articles
Runtimes
Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.
Runtimes
Trois runtimes d'inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.
Runtimes
Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.