fix: update slide 9 lesson 1

This commit is contained in:
Tim Rijkse
2026-01-30 15:05:30 +01:00
parent 69f7ee76e2
commit 03a5d437df
2 changed files with 42 additions and 18 deletions

View File

@@ -155,23 +155,33 @@ _[Laat dit even landen]_
---
### Slide 9: Next-Token Prediction
### Slide 9: Tokens & Next-Token Prediction
**[20:00 - 23:00]** _(3 minuten)_
**[20:00 - 24:00]** _(4 minuten)_
"Laat me dit concreet maken met een voorbeeld."
"Laat me precies uitleggen hoe dit werkt. Het begint met tokens."
_[Wijs naar de slide]_
"Als ik aan ChatGPT vraag: 'De kat zat op de...' - wat denk je dat hij zegt?"
"Stap 1: Als je tekst naar ChatGPT stuurt, wordt die tekst eerst omgezet naar nummers. Elk woord - of soms een deel van een woord - krijgt een nummer. Dit noemen we tokens."
"Dus 'Ik drink koffie' wordt zoiets als [1847, 5621, 8934]. Het model werkt puur met getallen, niet met tekst."
_[Korte pauze]_
"Stap 2: Nu komt het slimme. Woorden die qua betekenis op elkaar lijken, krijgen nummers die dicht bij elkaar liggen. Denk aan 'koffie' en 'thee' - die liggen dichtbij in deze 'getallenruimte'. Of 'staal' en 'metaal'. Maar 'koffie' en 'fiets' liggen ver uit elkaar."
"Dit betekent dat het model snapt dat bepaalde woorden bij elkaar horen, puur door naar patronen in miljoenen teksten te kijken."
_[Wijs naar het voorbeeld]_
"Stap 3: Nu de voorspelling. Als ik vraag: 'Ik drink koffie met...' - wat komt er waarschijnlijk?"
_[Wacht op antwoorden]_
"Precies, grote kans 'mat'. Waarom? Omdat in alle tekst waarop hij getraind is, die combinatie 'de kat zat op de mat' ontelbare keren voorkomt. Statistisch gezien is 'mat' het meest waarschijnlijke volgende woord."
"Precies! 'Melk' of 'suiker'. Het model berekent voor elk mogelijk woord de kans dat het volgt. En dan kiest het - meestal het meest waarschijnlijke, maar niet altijd. Er zit wat randomness in, anders kreeg je steeds hetzelfde antwoord."
"Maar hier wordt het interessant: het model kiest niet altijd het MEEST waarschijnlijke woord. Er zit een element van randomness in - wat we 'temperature' noemen. Anders zou je elke keer exact hetzelfde antwoord krijgen."
"Dit verklaart ook waarom je soms hele goede antwoorden krijgt en soms onzin. Het model 'gokt' in zekere zin, gebaseerd op waarschijnlijkheden. Meestal gokt het goed. Soms niet."
"Dit verklaart waarom je soms briljante antwoorden krijgt en soms onzin. Het model gokt slim, maar het blijft gokken."
"En dit brengt me bij iets heel belangrijks..."