Coût d'inférence LLM : API, cloud ou local ?

Le vrai coût de l'inférence LLM en 2026 : prix des API au token, location de GPU, auto-hébergement. Calculez votre point de bascule, chiffres et sources à l'appui.

Les trois façons de payer l’inférence

Servir un modèle de langage, c’est choisir entre trois modèles économiques. L’API : un fournisseur héberge le modèle, vous payez au token. Le GPU cloud auto-hébergé : vous louez des GPU à l’heure et faites tourner votre propre pile d’inférence. Le local : vous achetez le matériel et l’amortissez.

Ces trois options n’ont pas le même profil de coût, ni le même profil de risque. L’erreur classique consiste à comparer un prix au token à un prix horaire de GPU — deux unités qui ne se rejoignent qu’après une chaîne d’hypothèses sur le débit, l’utilisation et l’exploitation.

L’API : simple, et moins chère qu’on ne le croit

Le prix des API a été emporté par ce que les analystes appellent la « LLMflation » : le coût d’une capacité équivalente a chuté d’environ 10× par an entre 2021 et 2025. Un modèle de niveau GPT-4, facturé autour de 30 $ par million de tokens début 2023, se trouve aujourd’hui sous 1 $. Le rythme devrait ralentir à ~3 à 5× par an d’ici 2027, mais la direction est claire.

Mi-2026, les ordres de grandeur du marché — entrée / sortie, par million de tokens :

Classe de modèle	Entrée / M tokens	Sortie / M tokens	Usage typique
Premium (raisonnement)	≈ 2,50–5 $	≈ 15–25 $	Tâches complexes, agents
Milieu de gamme	≈ 0,50–2 $	≈ 3–12 $	Production généraliste
Léger / rapide	≈ 0,05–0,25 $	≈ 0,40–2 $	Classification, extraction, volume

Tableau 1 — Fourchettes indicatives de prix API mi-2026, par classe de modèle. Les tokens de sortie coûtent typiquement ~4× les tokens d'entrée.

Pour la grande majorité des projets — prototypes, produits à trafic modéré, charges irrégulières — l’API est le bon choix : pas de GPU à provisionner, pas de pile à maintenir, une élasticité immédiate. La question du coût ne se pose vraiment qu’à volume élevé et régulier.

Le coût réel d’un GPU loué

C’est ici que la plupart des comparaisons dérapent. Le prix horaire affiché — mi-2026, autour de 3 $/h pour un H100 chez les grands fournisseurs — n’est qu’un point de départ. Le coût réel par token s’écrit :

Trois facteurs déplacent ce chiffre bien plus que le prix horaire lui-même.

L’utilisation est le facteur dominant. Un GPU à 10 % de charge coûte environ dix fois plus cher au token qu’à 90 %. C’est toute la raison d’être du batching continu de vLLM : il maintient le GPU à 90 %+ d’occupation là où un serveur naïf plafonne autour de 40 %, ce qui divise quasiment le coût par deux à débit égal.

L’overhead opérationnel s’ajoute au prix de location. Réseau, stockage, orchestration, supervision : comptez typiquement 2 à 7 $/h en plus du GPU nu. Un nœud 8×H100 réellement exploité revient à ~8–15 $/h tout compris.

Le temps d’ingénieur est un coût, pas un détail. Maintenir une pile d’inférence — mises à jour de runtime, drivers, incidents — mobilise 20 à 30 % d’un ingénieur senior, soit ~3 000 à 6 000 $/mois qu’aucune ligne de facture cloud n’affiche.

Calculez votre point de bascule

Le seul calcul qui compte est le vôtre. L’outil ci-dessous compare, pour un volume donné, le coût mensuel d’une API au coût d’un GPU auto-hébergé — en tenant compte de l’utilisation réelle et de l’overhead.

La règle empirique qui se dégage : l’auto-hébergement devient pertinent au-delà de ~50 % d’utilisation soutenue et d’environ 10 millions de tokens par jour et par GPU. En dessous, l’API gagne presque toujours — et le calcul ne tient même pas compte du risque évité.

Le local : « gratuit », vraiment ?

Faire tourner un modèle sur sa propre machine donne l’illusion de la gratuité : le matériel est déjà là, l’électricité « ne se voit pas ». C’est un mauvais calcul tant qu’on ne l’amortit pas.

Une RTX 5090 — 32 Go de GDDR7, ~2 000 $ — fait tourner un modèle quantifié de ~30 milliards de paramètres, voire un 70 B en 4 bits. À usage personnel intensif, son amortissement sur deux ou trois ans peut effectivement passer sous le coût d’une API. Mais le local n’a de sens que sur trois critères non économiques : la confidentialité (la donnée ne sort pas), la latence (pas d’aller-retour réseau), et l’indépendance (pas de dépendance fournisseur). Si aucun de ces trois critères ne prime, le local est rarement le choix rationnel pour de la production.

Ce que la pénurie de GPU change

Le marché 2026 n’est pas un marché normal. La demande dépasse l’offre sur tout le haut de gamme : début 2026, la capacité de location H100/H200/B200 était quasi introuvable, les hyperscalers ayant préempté l’essentiel des allocations Blackwell. Le packaging CoWoS de TSMC est réservé jusqu’à mi-2027.

Comment décider

Critère	API	GPU cloud auto-hébergé	Local
Volume cible	Faible à moyen	Élevé et régulier	Personnel / dev
Mise en route	Immédiate	Jours à semaines	Achat matériel
Coût à faible charge	Excellent	Mauvais	Mauvais (non amorti)
Coût à forte charge soutenue	Moyen	Excellent	Bon (si amorti)
Confidentialité / souveraineté	Limitée	Bonne	Totale
Charge d'exploitation	Nulle	Élevée	Moyenne

Tableau 2 — Matrice de décision synthétique. Le volume et la régularité priment sur le prix unitaire.

Posez les questions dans le bon ordre. Quel volume, et à quelle régularité ? En dessous de quelques millions de tokens par jour, restez sur l’API. La confidentialité ou la souveraineté sont-elles contraignantes ? Si oui, l’auto-hébergement — idéalement chez un fournisseur européen — devient un sujet même à coût égal. Avez-vous l’équipe pour exploiter une pile d’inférence ? Si non, le coût d’ingénierie effacera l’économie sur le GPU.

Conclusion

Le coût d’inférence n’est pas un prix, c’est une fonction : du volume, de l’utilisation, de l’exploitation. L’API est le choix par défaut rationnel pour la plupart des équipes, et la LLMflation joue en sa faveur chaque trimestre. L’auto-hébergement se justifie à forte charge soutenue ou sous contrainte de souveraineté — jamais sur la seule lecture du prix horaire d’un GPU. Avant de provisionner quoi que ce soit, faites le calcul complet : c’est presque toujours lui qui tranche.

Sources et méthode

Prix API et tendance « LLMflation » : trackers de prix publics (BenchLM, CloudZero), a16z — Welcome to LLMflation, Epoch AI — LLM inference price trends, relevés du 14 mai 2026. Prix de location GPU : pages tarifaires publiques OVHcloud, Scaleway, Lambda, RunPod, CoreWeave (relevés du 14 mai 2026 — tarifs volatils). Structure de coût de l’auto-hébergement et seuils de bascule : analyses publiques d’économie unitaire de l’inférence (Introl, Silicon Data, SitePoint, 2025–2026) — il s’agit d’ordres de grandeur et d’estimations crédibles, pas de chiffres garantis : ils dépendent du modèle, du runtime et de la configuration. Tension d’approvisionnement et packaging CoWoS : SemiAnalysis, 2026.

Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

Les trois façons de payer l’inférence

L’API : simple, et moins chère qu’on ne le croit

Le coût réel d’un GPU loué

Calculez votre point de bascule

Le local : « gratuit », vraiment ?

Ce que la pénurie de GPU change

Comment décider

Conclusion

Sources et méthode

Questions fréquentes

Coût d'inférence LLM : API, GPU cloud ou auto-hébergement ?

Les trois façons de payer l’inférence

L’API : simple, et moins chère qu’on ne le croit

Le coût réel d’un GPU loué

Calculez votre point de bascule

Le local : « gratuit », vraiment ?

Ce que la pénurie de GPU change

Comment décider

Conclusion

Sources et méthode

Questions fréquentes

À lire ensuite

GPU cloud en France et en Europe : où louer H100, H200 et Blackwell

RTX 5090 vs H100 : quelle carte pour un LLM en local ?

vLLM vs llama.cpp vs TensorRT-LLM : quel runtime choisir ?