Tous les dossiers — page 2

Runtimes

llama.cpp expliqué : GGUF, quantification et kernels

Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.

llama.cpp
GGUF
Quantification
Quantization

Edge AI

Jetson Orin et edge AI : LLM, vision et limites mémoire

Ce qui tourne vraiment sur un Jetson Orin hors datacenter : LLM quantifiés, vision temps réel — et les vraies limites, mémoire unifiée, thermique et arbitrage edge/cloud.

Jetson Orin
Edge AI
Embarqué
Vision

Edge AI

NPU vs GPU à l'edge : quel accélérateur pour l'inférence embarquée

NPU ou GPU embarqué pour l'inférence à l'edge ? Deux philosophies comparées sur l'efficacité énergétique, la flexibilité et le vrai piège : la chaîne de compilation.

NPU
GPU embarqué
Edge AI
Efficacité énergétique

Tous les articles — page 2

llama.cpp expliqué : GGUF, quantification et kernels

Jetson Orin et edge AI : LLM, vision et limites mémoire

NPU vs GPU à l'edge : quel accélérateur pour l'inférence embarquée