// LLM-kostencalculator

LLM-kostencalculator

Schat je maandelijkse en jaarlijkse LLM-API-rekening over OpenAI, Anthropic (Claude), Google Gemini en Azure OpenAI. Stel input- en outputtokens per request in, het aantal requests per maand en het prijsmodel, en zie de kosten uitgesplitst per token. Gratis, zonder aanmelden, en het draait volledig in je browser.

Provider
Model
Gebruik per request
Prijsmodel
// Geschatte kosten
$0 / maand
$0 per jaar
$0 per 1.000 requests

Uitsplitsing

3 snelle besparingen

Een goedkoper model kan tot $0 / maand schelen.

  • Kies het juiste model Stuur eenvoudige calls naar een kleiner, goedkoper model en houd het topmodel alleen voor de moeilijke. Vaak de grootste besparing.
  • Prompt caching Cache het stabiele deel van je prompt (systeemprompt, context, few-shot-voorbeelden). Gecachte input wordt voor een fractie van de inputprijs gelezen.
  • Batch & minder tokens Verplaats niet-interactief werk naar de batch-API voor ~50% korting, en beperk outputtokens — die kosten een veelvoud van input.

Wil je het echte bedrag, plus een plan om het te verlagen?

Dit is een indicatie. Stuur me je werkelijke prompts en verkeer en je krijgt een nauwkeurig bedrag plus een concreet plan om het terug te brengen, van modelrouting tot caching. Het eerste gesprek van 30 minuten is gratis.

Mail me →

Aannames. De prijzen zijn publieke lijstprijzen per miljoen tokens. De cijfers van Anthropic (Claude) zijn actueel; die van OpenAI, Google en Azure zijn representatief voor de gangbare modeltiers en slechts een schatting. Je echte rekening hangt af van het exacte model, caching, batch- en committed-use-kortingen, en image- of tooltokens. Tarieven voor het laatst bijgewerkt op 2026-06-26.

Veelgestelde vragen

Hoe worden LLM-/tokenkosten berekend?

Vrijwel elke API rekent per token af, met aparte prijzen voor input (je prompt) en output (het antwoord van het model). Kosten per request = (inputtokens ÷ 1.000.000 × inputprijs) + (outputtokens ÷ 1.000.000 × outputprijs). Vermenigvuldig met het aantal requests per maand voor de maandrekening. Outputtokens kosten meestal een veelvoud van input, dus lange antwoorden domineren.

Waarom is mijn OpenAI-/Claude-/Gemini-rekening hoger dan deze schatting?

Echte rekeningen bevatten zaken die een indicatie niet meeneemt: systeemprompts en context die je bij elke call opnieuw meestuurt, retries, tool-call-rondjes, image- en audiotokens, en reasoning-tokens bij thinking-modellen. Lange gedeelde context die je elke beurt opnieuw stuurt is de klassieke verrassing. Zie dit als een ondergrens, en zet prompt caching aan om herhaalde context goedkoper te maken.

Hoe verlaag ik LLM-API-kosten?

Op volgorde van impact: stuur makkelijke requests naar een kleiner model en houd het topmodel voor de moeilijke; cache het stabiele promptdeel zodat herhaalde context goedkoop wordt gelezen; beperk outputtokens (de dure kant); en verplaats niet-interactief werk naar de batch-API voor ongeveer de helft van de prijs. Samen verlagen die een rekening vaak met 50% of meer.

Welke LLM-provider is het goedkoopst?

Dat hangt af van de modeltier en je input/output-verhouding, niet van de naam van de provider. Kleine modellen zijn bij elke provider goedkoop; topmodellen zijn veel duurder en verschillen in hoeveel output ze voor dezelfde taak genereren. Omdat output de dure kant is, kan een model dat bondig antwoordt een nominaal goedkoper model verslaan dat doorratelt. Wissel hierboven van provider en model om je eigen workload te vergelijken.

Is deze calculator nauwkeurig?

Het is een goede richtinggevende schatting, geen offerte. De Claude-prijzen zijn actueel; de andere providers gebruiken representatieve lijstprijzen voor de gangbare tiers, periodiek bijgewerkt. Voor een exact bedrag op basis van jouw prompts, verkeer en caching is een kort gesprek de snelste weg.