Rechercher - LeCompute

15 dossiers disponibles.

Coûts
Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.

14 mai 2026 7 min de lecture
Coûts
GPU cloud en France et en Europe : où louer H100, H200 et Blackwell

Où louer des GPU H100, H200 et Blackwell en France et en Europe en 2026 : Scaleway, OVHcloud, alternatives, prix relevés, souveraineté et pénurie.

14 mai 2026 5 min de lecture
Edge AI
Jetson Thor, Hailo-10H, Coral : quel accélérateur edge en 2026 ?

Le paysage des accélérateurs edge a basculé : Jetson Thor ouvre un palier Blackwell, le Hailo-10H fait du GenAI — et Google Coral est abandonné. Comparatif 2026.

14 mai 2026 5 min de lecture
Kernel & Perf
eBPF et perf : observer une stack d'inférence LLM

Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d'une stack d'inférence : ordonnancement, page faults, I/O — là où les abstractions s'arrêtent.

14 mai 2026 5 min de lecture
Runtimes
KV cache : pourquoi votre LLM sature la mémoire

Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.

14 mai 2026 6 min de lecture
Silicon
CUDA vs ROCm en 2026 : l'écart réel en production IA

CUDA vs ROCm en 2026 : le débat n'est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.

14 mai 2026 5 min de lecture
Silicon
FP8, FP6, FP4 : ce que la basse précision change vraiment

FP8, FP6, FP4 : les formats numériques basse précision de l'inférence 2026. Formats à blocs MXFP4 et NVFP4, compromis portée/débit, et ce que le matériel supporte.

14 mai 2026 5 min de lecture
Silicon
AMD MI355X vs NVIDIA B200/B300 : le vrai match en 2026

AMD MI355X face à NVIDIA B200 et B300 : mémoire, bande passante, FP4 et le vrai écart — le scale-up NVLink et le logiciel. Comparatif sourcé, mi-2026.

14 mai 2026 5 min de lecture
Silicon
RTX 5090 vs H100 : quelle carte pour un LLM en local ?

RTX 5090 vs H100 pour faire tourner un LLM en local : 32 Go GDDR7 face à 80 Go HBM3, ce qui tient vraiment en VRAM, et pourquoi ce ne sont pas les mêmes produits.

14 mai 2026 5 min de lecture
Silicon
H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM

H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.

12 mai 2026 7 min de lecture
Silicon
HBM et NVLink : pourquoi les LLM sont limités par la mémoire

Les LLM ne sont presque jamais limités par les FLOPS. Le vrai plafond — bande passante HBM, KV cache, interconnexions NVLink — et ce que ça change au dimensionnement.

6 mai 2026 5 min de lecture
Runtimes
vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?

Trois runtimes d'inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.

28 avril 2026 5 min de lecture
Runtimes
llama.cpp expliqué : GGUF, quantification et kernels

Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.

15 avril 2026 5 min de lecture
Edge AI
Jetson Orin et edge AI : LLM, vision et limites mémoire

Ce qui tourne vraiment sur un Jetson Orin hors datacenter : LLM quantifiés, vision temps réel — et les vraies limites, mémoire unifiée, thermique et arbitrage edge/cloud.

2 avril 2026 5 min de lecture
Edge AI
NPU vs GPU à l'edge : quel accélérateur pour l'inférence embarquée

NPU ou GPU embarqué pour l'inférence à l'edge ? Deux philosophies comparées sur l'efficacité énergétique, la flexibilité et le vrai piège : la chaîne de compilation.

20 mars 2026 4 min de lecture

Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

GPU cloud en France et en Europe : où louer H100, H200 et Blackwell

Jetson Thor, Hailo-10H, Coral : quel accélérateur edge en 2026 ?

eBPF et perf : observer une stack d'inférence LLM

KV cache : pourquoi votre LLM sature la mémoire

CUDA vs ROCm en 2026 : l'écart réel en production IA

FP8, FP6, FP4 : ce que la basse précision change vraiment

AMD MI355X vs NVIDIA B200/B300 : le vrai match en 2026

RTX 5090 vs H100 : quelle carte pour un LLM en local ?

H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM

HBM et NVLink : pourquoi les LLM sont limités par la mémoire

vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?

llama.cpp expliqué : GGUF, quantification et kernels

Jetson Orin et edge AI : LLM, vision et limites mémoire

NPU vs GPU à l'edge : quel accélérateur pour l'inférence embarquée