Runtimes
llama.cpp expliqué : GGUF, quantification et kernels
Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.
Dossiers
Tous les articles de LeCompute : silicium, runtimes d'inférence, edge AI, coûts et observabilité système.
15 articles publiés — page 2 sur 2
Runtimes
Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.
Edge AI
Ce qui tourne vraiment sur un Jetson Orin hors datacenter : LLM quantifiés, vision temps réel — et les vraies limites, mémoire unifiée, thermique et arbitrage edge/cloud.
Edge AI
NPU ou GPU embarqué pour l'inférence à l'edge ? Deux philosophies comparées sur l'efficacité énergétique, la flexibilité et le vrai piège : la chaîne de compilation.