Recherche
Rechercher un dossier
Rechercher dans tous les dossiers de LeCompute : silicium, runtimes et edge AI.
15 dossiers disponibles.
- Coûts
Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?
Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.
- Coûts
GPU cloud en France et en Europe : où louer H100, H200 et Blackwell
Où louer des GPU H100, H200 et Blackwell en France et en Europe en 2026 : Scaleway, OVHcloud, alternatives, prix relevés, souveraineté et pénurie.
- Edge AI
Jetson Thor, Hailo-10H, Coral : quel accélérateur edge en 2026 ?
Le paysage des accélérateurs edge a basculé : Jetson Thor ouvre un palier Blackwell, le Hailo-10H fait du GenAI — et Google Coral est abandonné. Comparatif 2026.
- Kernel & Perf
eBPF et perf : observer une stack d'inférence LLM
Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d'une stack d'inférence : ordonnancement, page faults, I/O — là où les abstractions s'arrêtent.
- Runtimes
KV cache : pourquoi votre LLM sature la mémoire
Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.
- Silicon
CUDA vs ROCm en 2026 : l'écart réel en production IA
CUDA vs ROCm en 2026 : le débat n'est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.
- Silicon
FP8, FP6, FP4 : ce que la basse précision change vraiment
FP8, FP6, FP4 : les formats numériques basse précision de l'inférence 2026. Formats à blocs MXFP4 et NVFP4, compromis portée/débit, et ce que le matériel supporte.
- Silicon
AMD MI355X vs NVIDIA B200/B300 : le vrai match en 2026
AMD MI355X face à NVIDIA B200 et B300 : mémoire, bande passante, FP4 et le vrai écart — le scale-up NVLink et le logiciel. Comparatif sourcé, mi-2026.
- Silicon
RTX 5090 vs H100 : quelle carte pour un LLM en local ?
RTX 5090 vs H100 pour faire tourner un LLM en local : 32 Go GDDR7 face à 80 Go HBM3, ce qui tient vraiment en VRAM, et pourquoi ce ne sont pas les mêmes produits.
- Silicon
H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM
H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.
- Silicon
HBM et NVLink : pourquoi les LLM sont limités par la mémoire
Les LLM ne sont presque jamais limités par les FLOPS. Le vrai plafond — bande passante HBM, KV cache, interconnexions NVLink — et ce que ça change au dimensionnement.
- Runtimes
vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?
Trois runtimes d'inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.
- Runtimes
llama.cpp expliqué : GGUF, quantification et kernels
Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.
- Edge AI
Jetson Orin et edge AI : LLM, vision et limites mémoire
Ce qui tourne vraiment sur un Jetson Orin hors datacenter : LLM quantifiés, vision temps réel — et les vraies limites, mémoire unifiée, thermique et arbitrage edge/cloud.
- Edge AI
NPU vs GPU à l'edge : quel accélérateur pour l'inférence embarquée
NPU ou GPU embarqué pour l'inférence à l'edge ? Deux philosophies comparées sur l'efficacité énergétique, la flexibilité et le vrai piège : la chaîne de compilation.
Aucun dossier ne correspond à cette recherche. Essayez un autre terme ou parcourez tous les dossiers.