Articles — Runtimes

Runtimes

KV cache : pourquoi votre LLM sature la mémoire

Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.

6 min de lecture
  • KV cache
  • PagedAttention
  • Quantification
  • Mémoire

Runtimes

vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?

Trois runtimes d'inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.

5 min de lecture
  • vLLM
  • llama.cpp
  • TensorRT-LLM
  • Inférence

Runtimes

llama.cpp expliqué : GGUF, quantification et kernels

Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.

5 min de lecture
  • llama.cpp
  • GGUF
  • Quantification
  • Quantization