Question 1

Hoeveel VRAM heb ik nodig om een LLM te draaien?

Accepted Answer

Drie dingen tellen op: de modelgewichten (parameters × bytes per parameter, bijv. 2 bytes bij FP16), de KV-cache (die groeit met contextlengte en het aantal gelijktijdige requests), en ~15% overhead voor activaties en de CUDA-context. Een 7-8B-model bij FP16 heeft alleen al ~16-20 GiB nodig voor de gewichten; quantiseren naar 4-bit kwart dat ongeveer. Gebruik de calculator hierboven voor je eigen setup.

Question 2

Wat is de KV-cache en waarom groeit die?

Accepted Answer

De KV-cache bewaart de attention-keys en -values voor elk token dat al in de context zit, voor elke laag, zodat het model die niet bij elke stap opnieuw berekent. De omvang schaalt met contextlengte × batch (gelijktijdige requests) × lagen × hidden size. Bij lange context of hoge gelijktijdigheid kan die de gewichten evenaren of overtreffen, en daarom kan een model dat bij korte context "past" bij lange context het geheugen overschrijden.

Question 3

Verlaagt quantisatie de GPU-eisen?

Accepted Answer

Ja, fors. FP16 gebruikt 2 bytes per gewicht; INT8 gebruikt 1; INT4 (GPTQ/AWQ) ongeveer 0,5. Van FP16 naar INT4 verkleint het gewichtsgeheugen ruwweg 4×, vaak het verschil tussen twee GPU’s en één, met beperkt kwaliteitsverlies voor de meeste workloads. Het verkleint de KV-cache niet; die stuur je met contextlengte en KV-precisie.

Question 4

Moet ik self-hosten of een API gebruiken?

Accepted Answer

Self-hosting wint bij stabiel, hoog volume, strikte data-residency, of een fijngetuned open model; een API wint bij grillig of laag verkeer, waar je voor idle GPU’s zou betalen. Vergelijk de maandelijkse GPU-kosten hier met dezelfde workload in de LLM-kostencalculator. Het break-evenpunt is meestal een kwestie van bezetting, niet van lijstprijs.

Question 5

Is deze calculator nauwkeurig?

Accepted Answer

Het is een degelijke serving-side schatting, geen garantie. Hij gaat uit van typische architecturen per groottecategorie en representatieve GPU-prijzen; echte cijfers verschuiven met grouped-query attention, de serving-stack en je exacte GPU en regio. Voor een nauwkeurig plan op basis van jouw model en verkeer is een kort gesprek de snelste weg.

LLM GPU- & VRAM-calculator

Uitsplitsing

3 manieren om op een kleinere GPU te passen

Twijfel je tussen self-host en API, of size je een cluster?

Veelgestelde vragen