<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"><channel><title>Infrastructure IA : GPU, silicium et inférence - LeCompute</title><description>Analyses techniques, benchmarks et dossiers de référence sur le compute IA, du silicium aux frameworks d&apos;inférence.</description><link>https://lecompute.fr/</link><language>fr-fr</language><copyright>© 2026 LeCompute</copyright><image><url>https://lecompute.fr/logo.png</url><title>LeCompute</title><link>https://lecompute.fr</link></image><item><title>Coût d&apos;inférence LLM : API, GPU cloud ou auto-hébergement ?</title><link>https://lecompute.fr/couts/cout-inference-llm/</link><guid isPermaLink="true">https://lecompute.fr/couts/cout-inference-llm/</guid><description>Le vrai coût de l&apos;inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l&apos;appui.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>Coût d&apos;inférence</category><category>GPU cloud</category><category>API LLM</category><category>Auto-hébergement</category><category>TCO</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>GPU cloud en France et en Europe : où louer H100, H200 et Blackwell</title><link>https://lecompute.fr/couts/gpu-cloud-france-europe/</link><guid isPermaLink="true">https://lecompute.fr/couts/gpu-cloud-france-europe/</guid><description>Où louer des GPU H100, H200 et Blackwell en France et en Europe en 2026 : Scaleway, OVHcloud, alternatives, prix relevés, souveraineté et pénurie.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>GPU cloud</category><category>Souveraineté</category><category>Scaleway</category><category>OVHcloud</category><category>H100</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>Jetson Thor, Hailo-10H, Coral : quel accélérateur edge en 2026 ?</title><link>https://lecompute.fr/edge-ai/jetson-thor-hailo-coral-edge-2026/</link><guid isPermaLink="true">https://lecompute.fr/edge-ai/jetson-thor-hailo-coral-edge-2026/</guid><description>Le paysage des accélérateurs edge a basculé : Jetson Thor ouvre un palier Blackwell, le Hailo-10H fait du GenAI — et Google Coral est abandonné. Comparatif 2026.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>Jetson Thor</category><category>Hailo-10H</category><category>Google Coral</category><category>Edge AI</category><category>NPU</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>eBPF et perf : observer une stack d&apos;inférence LLM</title><link>https://lecompute.fr/kernel-perf/ebpf-perf-inference-llm/</link><guid isPermaLink="true">https://lecompute.fr/kernel-perf/ebpf-perf-inference-llm/</guid><description>Le GPU est à 30 %, pourquoi ? eBPF et perf diagnostiquent le côté hôte d&apos;une stack d&apos;inférence : ordonnancement, page faults, I/O — là où les abstractions s&apos;arrêtent.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>eBPF</category><category>perf</category><category>Observabilité</category><category>Noyau Linux</category><category>Profiling</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>KV cache : pourquoi votre LLM sature la mémoire</title><link>https://lecompute.fr/runtimes/kv-cache-llm-memoire/</link><guid isPermaLink="true">https://lecompute.fr/runtimes/kv-cache-llm-memoire/</guid><description>Le KV cache explique pourquoi un LLM consomme autant de VRAM. Définition, calcul de taille concret, PagedAttention, quantification FP8 et prefix caching.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>KV cache</category><category>PagedAttention</category><category>Quantification</category><category>Mémoire</category><category>vLLM</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>CUDA vs ROCm en 2026 : l&apos;écart réel en production IA</title><link>https://lecompute.fr/silicon/cuda-vs-rocm-2026/</link><guid isPermaLink="true">https://lecompute.fr/silicon/cuda-vs-rocm-2026/</guid><description>CUDA vs ROCm en 2026 : le débat n&apos;est plus « est-ce que ROCm marche » mais « quel écart reste-t-il ». Versions, parité framework, vrais verrous, sources.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>CUDA</category><category>ROCm</category><category>AMD</category><category>NVIDIA</category><category>Écosystème</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>FP8, FP6, FP4 : ce que la basse précision change vraiment</title><link>https://lecompute.fr/silicon/fp8-fp6-fp4-basse-precision/</link><guid isPermaLink="true">https://lecompute.fr/silicon/fp8-fp6-fp4-basse-precision/</guid><description>FP8, FP6, FP4 : les formats numériques basse précision de l&apos;inférence 2026. Formats à blocs MXFP4 et NVFP4, compromis portée/débit, et ce que le matériel supporte.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>FP8</category><category>FP4</category><category>MXFP4</category><category>NVFP4</category><category>Précision</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>AMD MI355X vs NVIDIA B200/B300 : le vrai match en 2026</title><link>https://lecompute.fr/silicon/mi355x-vs-b200/</link><guid isPermaLink="true">https://lecompute.fr/silicon/mi355x-vs-b200/</guid><description>AMD MI355X face à NVIDIA B200 et B300 : mémoire, bande passante, FP4 et le vrai écart — le scale-up NVLink et le logiciel. Comparatif sourcé, mi-2026.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>AMD MI355X</category><category>NVIDIA B200</category><category>Blackwell</category><category>CDNA 4</category><category>Datacenter IA</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>RTX 5090 vs H100 : quelle carte pour un LLM en local ?</title><link>https://lecompute.fr/silicon/rtx-5090-vs-h100-llm-local/</link><guid isPermaLink="true">https://lecompute.fr/silicon/rtx-5090-vs-h100-llm-local/</guid><description>RTX 5090 vs H100 pour faire tourner un LLM en local : 32 Go GDDR7 face à 80 Go HBM3, ce qui tient vraiment en VRAM, et pourquoi ce ne sont pas les mêmes produits.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>RTX 5090</category><category>H100</category><category>LLM local</category><category>VRAM</category><category>Blackwell</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>H100 vs B100 : analyse microarchitecturale et performance réelle en inférence LLM</title><link>https://lecompute.fr/silicon/h100-vs-b100/</link><guid isPermaLink="true">https://lecompute.fr/silicon/h100-vs-b100/</guid><description>H100 Hopper vs B100 Blackwell : architecture, mémoire et débit mesuré en inférence LLM. Où se situe vraiment le gain, et pour quelles charges il compte.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>H100</category><category>B100</category><category>Blackwell</category><category>Hopper</category><category>HBM3e</category><category>Inférence LLM</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>HBM et NVLink : pourquoi les LLM sont limités par la mémoire</title><link>https://lecompute.fr/silicon/hbm-nvlink-bande-passante-llm/</link><guid isPermaLink="true">https://lecompute.fr/silicon/hbm-nvlink-bande-passante-llm/</guid><description>Les LLM ne sont presque jamais limités par les FLOPS. Le vrai plafond — bande passante HBM, KV cache, interconnexions NVLink — et ce que ça change au dimensionnement.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>HBM</category><category>NVLink</category><category>KV cache</category><category>Bande passante</category><category>Roofline</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?</title><link>https://lecompute.fr/runtimes/vllm-llama-cpp-tensorrt-llm/</link><guid isPermaLink="true">https://lecompute.fr/runtimes/vllm-llama-cpp-tensorrt-llm/</guid><description>Trois runtimes d&apos;inférence LLM, trois philosophies : débit serveur, déploiement local, performance verrouillée NVIDIA. Une matrice de décision claire pour bien choisir.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>vLLM</category><category>llama.cpp</category><category>TensorRT-LLM</category><category>Inférence</category><category>Runtimes</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>llama.cpp expliqué : GGUF, quantification et kernels</title><link>https://lecompute.fr/runtimes/llama-cpp-gguf-quantization/</link><guid isPermaLink="true">https://lecompute.fr/runtimes/llama-cpp-gguf-quantization/</guid><description>Comment llama.cpp fait tenir des modèles de dizaines de milliards de paramètres sur du matériel grand public : format GGUF, schémas de quantification et chemin d&apos;un token.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>llama.cpp</category><category>GGUF</category><category>Quantification</category><category>Quantization</category><category>Kernels</category><category>Inférence locale</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>Jetson Orin et edge AI : LLM, vision et limites mémoire</title><link>https://lecompute.fr/edge-ai/jetson-orin-edge-ai/</link><guid isPermaLink="true">https://lecompute.fr/edge-ai/jetson-orin-edge-ai/</guid><description>Ce qui tourne vraiment sur un Jetson Orin hors datacenter : LLM quantifiés, vision temps réel — et les vraies limites, mémoire unifiée, thermique et arbitrage edge/cloud.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>Jetson Orin</category><category>Edge AI</category><category>Embarqué</category><category>Vision</category><category>Quantification</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item><item><title>NPU vs GPU à l&apos;edge : quel accélérateur pour l&apos;inférence embarquée</title><link>https://lecompute.fr/edge-ai/npu-vs-gpu-edge-ai/</link><guid isPermaLink="true">https://lecompute.fr/edge-ai/npu-vs-gpu-edge-ai/</guid><description>NPU ou GPU embarqué pour l&apos;inférence à l&apos;edge ? Deux philosophies comparées sur l&apos;efficacité énergétique, la flexibilité et le vrai piège : la chaîne de compilation.</description><pubDate>Thu, 14 May 2026 00:00:00 GMT</pubDate><category>NPU</category><category>GPU embarqué</category><category>Edge AI</category><category>Efficacité énergétique</category><category>Compilation</category><author>redaction@lecompute.fr (Killian Pluenet)</author></item></channel></rss>