Infrastructure IA : GPU, silicium et inférence

Infrastructure IA : GPU, silicium et inférence - LeComputeAnalyses techniques, benchmarks et dossiers de référence sur le compute IA, du silicium aux frameworks d'inférence.https://lecompute.fr/fr-fr© 2026 LeComputehttps://lecompute.fr/logo.pngLeComputehttps://lecompute.frCoût d'inférence LLM : API, GPU cloud ou auto-hébergement ?https://lecompute.fr/couts/cout-inference-llm/https://lecompute.fr/couts/cout-inference-llm/Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.Thu, 14 May 2026 00:00:00 GMTCoût d'inférenceGPU cloudAPI LLMAuto-hébergementTCOredaction@lecompute.fr (Killian Pluenet)GPU cloud en France et en Europe : où louer H100, H200 et Blackwellhttps://lecompute.fr/couts/gpu-cloud-france-europe/https://lecompute.fr/couts/gpu-cloud-france-europe/Où louer des GPU H100, H200 et Blackwell en France et en Europe en 2026 : Scaleway, OVHcloud, alternatives, prix relevés, souveraineté et pénurie.Thu, 14 May 2026 00:00:00 GMTGPU cloudSouverainetéScalewayOVHcloudH100redaction@lecompute.fr (Killian Pluenet)Jetson Thor, Hailo-10H, Coral : quel accélérateur edge en 2026 ?https://lecompute.fr/edge-ai/jetson-thor-hailo-coral-edge-2026/https://lecompute.fr/edge-ai/jetson-thor-hailo-coral-edge-2026/Le paysage des accélérateurs edge a basculé : Jetson Thor ouvre un palier Blackwell, le Hailo-10H fait du GenAI — et Google Coral est abandonné. Comparatif 2026.Thu, 14 May 2026 00:00:00 GMTJetson ThorHailo-10HGoogle CoralEdge AINPUredaction@lecompute.fr (Killian Pluenet)eBPF et perf : observer une stack d'inférence LLMhttps://lecompute.fr/kernel-perf/ebpf-perf-inference-llm/https://lecompute.fr/kernel-perf/ebpf-perf-inference-llm/Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d'une stack d'inférence : ordonnancement, page faults, I/O — là où les abstractions s'arrêtent.Thu, 14 May 2026 00:00:00 GMTeBPFperfObservabilitéNoyau LinuxProfilingredaction@lecompute.fr (Killian Pluenet)KV cache : pourquoi votre LLM sature la mémoirehttps://lecompute.fr/runtimes/kv-cache-llm-memoire/https://lecompute.fr/runtimes/kv-cache-llm-memoire/Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.Thu, 14 May 2026 00:00:00 GMTKV cachePagedAttentionQuantificationMémoirevLLMredaction@lecompute.fr (Killian Pluenet)CUDA vs ROCm en 2026 : l'écart réel en production IAhttps://lecompute.fr/silicon/cuda-vs-rocm-2026/https://lecompute.fr/silicon/cuda-vs-rocm-2026/CUDA vs ROCm en 2026 : le débat n'est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.Thu, 14 May 2026 00:00:00 GMTCUDAROCmAMDNVIDIAÉcosystèmeredaction@lecompute.fr (Killian Pluenet)FP8, FP6, FP4 : ce que la basse précision change vraimenthttps://lecompute.fr/silicon/fp8-fp6-fp4-basse-precision/https://lecompute.fr/silicon/fp8-fp6-fp4-basse-precision/FP8, FP6, FP4 : les formats numériques basse précision de l'inférence 2026. Formats à blocs MXFP4 et NVFP4, compromis portée/débit, et ce que le matériel supporte.Thu, 14 May 2026 00:00:00 GMTFP8FP4MXFP4NVFP4Précisionredaction@lecompute.fr (Killian Pluenet)AMD MI355X vs NVIDIA B200/B300 : le vrai match en 2026https://lecompute.fr/silicon/mi355x-vs-b200/https://lecompute.fr/silicon/mi355x-vs-b200/AMD MI355X face à NVIDIA B200 et B300 : mémoire, bande passante, FP4 et le vrai écart — le scale-up NVLink et le logiciel. Comparatif sourcé, mi-2026.Thu, 14 May 2026 00:00:00 GMTAMD MI355XNVIDIA B200BlackwellCDNA 4Datacenter IAredaction@lecompute.fr (Killian Pluenet)RTX 5090 vs H100 : quelle carte pour un LLM en local ?https://lecompute.fr/silicon/rtx-5090-vs-h100-llm-local/https://lecompute.fr/silicon/rtx-5090-vs-h100-llm-local/RTX 5090 vs H100 pour faire tourner un LLM en local : 32 Go GDDR7 face à 80 Go HBM3, ce qui tient vraiment en VRAM, et pourquoi ce ne sont pas les mêmes produits.Thu, 14 May 2026 00:00:00 GMTRTX 5090H100LLM localVRAMBlackwellredaction@lecompute.fr (Killian Pluenet)H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLMhttps://lecompute.fr/silicon/h100-vs-b100/https://lecompute.fr/silicon/h100-vs-b100/H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.Thu, 14 May 2026 00:00:00 GMTH100B100BlackwellHopperHBM3eInférence LLMredaction@lecompute.fr (Killian Pluenet)HBM et NVLink : pourquoi les LLM sont limités par la mémoirehttps://lecompute.fr/silicon/hbm-nvlink-bande-passante-llm/https://lecompute.fr/silicon/hbm-nvlink-bande-passante-llm/Les LLM ne sont presque jamais limités par les FLOPS. Le vrai plafond — bande passante HBM, KV cache, interconnexions NVLink — et ce que ça change au dimensionnement.Thu, 14 May 2026 00:00:00 GMTHBMNVLinkKV cacheBande passanteRooflineredaction@lecompute.fr (Killian Pluenet)vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?https://lecompute.fr/runtimes/vllm-llama-cpp-tensorrt-llm/https://lecompute.fr/runtimes/vllm-llama-cpp-tensorrt-llm/Trois runtimes d'inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.Thu, 14 May 2026 00:00:00 GMTvLLMllama.cppTensorRT-LLMInférenceRuntimesredaction@lecompute.fr (Killian Pluenet)llama.cpp expliqué : GGUF, quantification et kernelshttps://lecompute.fr/runtimes/llama-cpp-gguf-quantization/https://lecompute.fr/runtimes/llama-cpp-gguf-quantization/Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d'un token.Thu, 14 May 2026 00:00:00 GMTllama.cppGGUFQuantificationQuantizationKernelsInférence localeredaction@lecompute.fr (Killian Pluenet)Jetson Orin et edge AI : LLM, vision et limites mémoirehttps://lecompute.fr/edge-ai/jetson-orin-edge-ai/https://lecompute.fr/edge-ai/jetson-orin-edge-ai/Ce qui tourne vraiment sur un Jetson Orin hors datacenter : LLM quantifiés, vision temps réel — et les vraies limites, mémoire unifiée, thermique et arbitrage edge/cloud.Thu, 14 May 2026 00:00:00 GMTJetson OrinEdge AIEmbarquéVisionQuantificationredaction@lecompute.fr (Killian Pluenet)NPU vs GPU à l'edge : quel accélérateur pour l'inférence embarquéehttps://lecompute.fr/edge-ai/npu-vs-gpu-edge-ai/https://lecompute.fr/edge-ai/npu-vs-gpu-edge-ai/NPU ou GPU embarqué pour l'inférence à l'edge ? Deux philosophies comparées sur l'efficacité énergétique, la flexibilité et le vrai piège : la chaîne de compilation.Thu, 14 May 2026 00:00:00 GMTNPUGPU embarquéEdge AIEfficacité énergétiqueCompilationredaction@lecompute.fr (Killian Pluenet)