Tous les articles — page 2

Runtimes

llama.cpp expliqué : GGUF, quantification et kernels

Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.

5 min de lecture
  • llama.cpp
  • GGUF
  • Quantification
  • Quantization

Edge AI

Jetson Orin et edge AI : LLM, vision et limites mémoire

Ce qui tourne vraiment sur un Jetson Orin hors datacenter : LLM quantifiés, vision temps réel — et les vraies limites, mémoire unifiée, thermique et arbitrage edge/cloud.

5 min de lecture
  • Jetson Orin
  • Edge AI
  • Embarqué
  • Vision