Question 1

Hoe worden LLM-/tokenkosten berekend?

Accepted Answer

Vrijwel elke API rekent per token af, met aparte prijzen voor input (je prompt) en output (het antwoord van het model). Kosten per request = (inputtokens ÷ 1.000.000 × inputprijs) + (outputtokens ÷ 1.000.000 × outputprijs). Vermenigvuldig met het aantal requests per maand voor de maandrekening. Outputtokens kosten meestal een veelvoud van input, dus lange antwoorden domineren.

Question 2

Waarom is mijn OpenAI-/Claude-/Gemini-rekening hoger dan deze schatting?

Accepted Answer

Echte rekeningen bevatten zaken die een indicatie niet meeneemt: systeemprompts en context die je bij elke call opnieuw meestuurt, retries, tool-call-rondjes, image- en audiotokens, en reasoning-tokens bij thinking-modellen. Lange gedeelde context die je elke beurt opnieuw stuurt is de klassieke verrassing. Zie dit als een ondergrens, en zet prompt caching aan om herhaalde context goedkoper te maken.

Question 3

Hoe verlaag ik LLM-API-kosten?

Accepted Answer

Op volgorde van impact: stuur makkelijke requests naar een kleiner model en houd het topmodel voor de moeilijke; cache het stabiele promptdeel zodat herhaalde context goedkoop wordt gelezen; beperk outputtokens (de dure kant); en verplaats niet-interactief werk naar de batch-API voor ongeveer de helft van de prijs. Samen verlagen die een rekening vaak met 50% of meer.

Question 4

Welke LLM-provider is het goedkoopst?

Accepted Answer

Dat hangt af van de modeltier en je input/output-verhouding, niet van de naam van de provider. Kleine modellen zijn bij elke provider goedkoop; topmodellen zijn veel duurder en verschillen in hoeveel output ze voor dezelfde taak genereren. Omdat output de dure kant is, kan een model dat bondig antwoordt een nominaal goedkoper model verslaan dat doorratelt. Wissel hierboven van provider en model om je eigen workload te vergelijken.

Question 5

Is deze calculator nauwkeurig?

Accepted Answer

Het is een goede richtinggevende schatting, geen offerte. De Claude-prijzen zijn actueel; de andere providers gebruiken representatieve lijstprijzen voor de gangbare tiers, periodiek bijgewerkt. Voor een exact bedrag op basis van jouw prompts, verkeer en caching is een kort gesprek de snelste weg.

LLM-kostencalculator

Uitsplitsing

3 snelle besparingen

Wil je het echte bedrag, plus een plan om het te verlagen?

Veelgestelde vragen