Geen wiskunde, wel begrip. Een heldere uitleg van tokens, voorspellingen en hallucinaties - zodat je weet wanneer je een LLM kunt vertrouwen.
Wie ChatGPT serieus inzet, hoort op een dag iemand zeggen: “Het verzint dingen.” Klopt. Maar waarom verzint het juist déze dingen, en niet andere? Om dat te snappen hoef je geen wiskundige te zijn. Je hoeft één principe te onthouden.
Een LLM voorspelt steeds het volgende woord. Meer niet.
Tokens, geen woorden
Een LLM ziet geen tekst zoals jij, maar tokens - stukjes tekst van een paar letters tot een heel woord. “AI-geletterdheid” kan in vier tokens uiteenvallen. De zin “Wat is” is twee tokens. Het model krijgt jouw prompt als reeks tokens binnen en moet de meest waarschijnlijke volgende token kiezen, dan de volgende, en zo verder.
Hoe heeft het “waarschijnlijk” geleerd?
Het model is getraind op enorme hoeveelheden tekst van het internet, boeken en code. Tijdens die training werd telkens een stuk tekst verborgen en moest het model raden wat erna kwam. Miljarden keren. Daardoor heeft het patronen geleerd: niet feiten, maar relaties tussen woorden en stukjes informatie.
Dit verklaart waarom een LLM zo vloeiend klinkt: vloeiend schrijven is precies waar het op getraind is. Het verklaart ook waarom feitelijke nauwkeurigheid een bijproduct is, geen kern.
Waarom hallucineren ze?
Stel: je vraagt om de auteur van een onbekend artikel. Het model heeft geen knop “ik weet het niet”. Het kiest gewoon het meest waarschijnlijke volgende woord. Dat klinkt plausibel - een Nederlandse naam, een titel die past - maar de combinatie kan compleet verzonnen zijn. Dat is een hallucinatie: vloeiende, overtuigende, foute tekst.
Hallucinaties komen vaker voor bij: specifieke feiten (data, citaten, namen), recente gebeurtenissen, niche-onderwerpen en open vragen waarvoor het model weinig trainingdata heeft.
Wat is het verschil met zoeken?
Google zoekt naar bestaande pagina’s. Een LLM genereert tekst op basis van patronen. Sinds 2024 hebben veel modellen ook een browse-functie of “retrieval-augmented generation” (RAG), waarbij ze externe bronnen oppikken en daarop antwoorden. Dat verlaagt het hallucinatierisico - maar nul wordt het nooit.
Context window: het korte termijngeheugen
Een LLM “onthoudt” alleen wat in de huidige conversatie staat plus jouw instructies. Dat is het context window. Moderne modellen halen 100.000 tot 1.000.000 tokens, ruim genoeg voor een boek. Maar zodra je een nieuwe chat opent, is alles weg.
Praktische gevolgen voor jouw werk
- Vraag nooit puur om feiten zonder bron. Vraag óók om de bron, en controleer die.
- Geef context in de prompt - het model heeft geen toegang tot jouw bestanden tenzij je ze plakt.
- Gebruik LLMs voor herschrijven, samenvatten, brainstormen en structureren; daar zijn ze excellent.
- Vertrouw geen cijfers, citaten of juridische artikelen blind, ook niet als ze zeker klinken.
- Hergebruik een goed werkende prompt - het kost minder tijd dan opnieuw beginnen.
Welk model wanneer?
Er zijn ruwweg drie niveaus: kleine snelle modellen (goed voor classificatie en korte taken), middelgrote (productiviteit) en frontier-modellen (complexe redenering en lange documenten). Voor de meeste kantoorbestanden volstaat het middelgrote niveau. Voor juridische analyses of code-review wil je het frontier-niveau.
Wie deze principes begrijpt, schrijft binnen een week betere prompts dan iemand die maandenlang trucjes verzamelt. In onze cursus oefen je dit met concrete praktijkopdrachten.