From 03a5d437df55183c091cffeec4aa5a6ed3311c60 Mon Sep 17 00:00:00 2001 From: Tim Rijkse Date: Fri, 30 Jan 2026 15:05:30 +0100 Subject: [PATCH] fix: update slide 9 lesson 1 --- Les01-Introductie-AI/Les01-Docenttekst.md | 26 +++++++++----- Les01-Introductie-AI/Les01-Slide-Overzicht.md | 34 +++++++++++++------ 2 files changed, 42 insertions(+), 18 deletions(-) diff --git a/Les01-Introductie-AI/Les01-Docenttekst.md b/Les01-Introductie-AI/Les01-Docenttekst.md index 142cfeb..16e292d 100644 --- a/Les01-Introductie-AI/Les01-Docenttekst.md +++ b/Les01-Introductie-AI/Les01-Docenttekst.md @@ -155,23 +155,33 @@ _[Laat dit even landen]_ --- -### Slide 9: Next-Token Prediction +### Slide 9: Tokens & Next-Token Prediction -**[20:00 - 23:00]** _(3 minuten)_ +**[20:00 - 24:00]** _(4 minuten)_ -"Laat me dit concreet maken met een voorbeeld." +"Laat me precies uitleggen hoe dit werkt. Het begint met tokens." _[Wijs naar de slide]_ -"Als ik aan ChatGPT vraag: 'De kat zat op de...' - wat denk je dat hij zegt?" +"Stap 1: Als je tekst naar ChatGPT stuurt, wordt die tekst eerst omgezet naar nummers. Elk woord - of soms een deel van een woord - krijgt een nummer. Dit noemen we tokens." + +"Dus 'Ik drink koffie' wordt zoiets als [1847, 5621, 8934]. Het model werkt puur met getallen, niet met tekst." + +_[Korte pauze]_ + +"Stap 2: Nu komt het slimme. Woorden die qua betekenis op elkaar lijken, krijgen nummers die dicht bij elkaar liggen. Denk aan 'koffie' en 'thee' - die liggen dichtbij in deze 'getallenruimte'. Of 'staal' en 'metaal'. Maar 'koffie' en 'fiets' liggen ver uit elkaar." + +"Dit betekent dat het model snapt dat bepaalde woorden bij elkaar horen, puur door naar patronen in miljoenen teksten te kijken." + +_[Wijs naar het voorbeeld]_ + +"Stap 3: Nu de voorspelling. Als ik vraag: 'Ik drink koffie met...' - wat komt er waarschijnlijk?" _[Wacht op antwoorden]_ -"Precies, grote kans 'mat'. Waarom? Omdat in alle tekst waarop hij getraind is, die combinatie 'de kat zat op de mat' ontelbare keren voorkomt. Statistisch gezien is 'mat' het meest waarschijnlijke volgende woord." +"Precies! 'Melk' of 'suiker'. Het model berekent voor elk mogelijk woord de kans dat het volgt. En dan kiest het - meestal het meest waarschijnlijke, maar niet altijd. Er zit wat randomness in, anders kreeg je steeds hetzelfde antwoord." -"Maar hier wordt het interessant: het model kiest niet altijd het MEEST waarschijnlijke woord. Er zit een element van randomness in - wat we 'temperature' noemen. Anders zou je elke keer exact hetzelfde antwoord krijgen." - -"Dit verklaart ook waarom je soms hele goede antwoorden krijgt en soms onzin. Het model 'gokt' in zekere zin, gebaseerd op waarschijnlijkheden. Meestal gokt het goed. Soms niet." +"Dit verklaart waarom je soms briljante antwoorden krijgt en soms onzin. Het model gokt slim, maar het blijft gokken." "En dit brengt me bij iets heel belangrijks..." diff --git a/Les01-Introductie-AI/Les01-Slide-Overzicht.md b/Les01-Introductie-AI/Les01-Slide-Overzicht.md index 4557386..d41bce5 100644 --- a/Les01-Introductie-AI/Les01-Slide-Overzicht.md +++ b/Les01-Introductie-AI/Les01-Slide-Overzicht.md @@ -141,26 +141,40 @@ --- -### Slide 9: Next-Token Prediction -*(3 minuten)* +### Slide 9: Tokens & Next-Token Prediction +*(4 minuten)* **Titel:** Hoe "denkt" een LLM? **Inhoud:** -**Voorbeeld:** "De kat zat op de ___" +**Stap 1: Tekst → Tokens (nummers)** +``` +"Ik drink koffie" → [1847, 5621, 8934] +``` +Elk woord (of woorddeel) krijgt een nummer. +**Stap 2: Betekenis in getallen** +Woorden met vergelijkbare betekenis liggen dicht bij elkaar: +- "koffie" en "thee" → dichtbij +- "staal" en "metaal" → dichtbij +- "koffie" en "fiets" → ver uit elkaar + +**Stap 3: Voorspel het volgende token** +``` +"Ik drink koffie met ___" +``` Het model berekent kansen: -- "mat" → 65% -- "stoel" → 15% -- "bank" → 10% +- "melk" → 45% +- "suiker" → 30% +- "een" → 15% -→ Kiest waarschijnlijk "mat" (maar niet altijd!) +→ Kiest waarschijnlijk "melk" (maar niet altijd!) **Dit verklaart:** -- Waarom het soms briljant is -- Waarom het soms onzin produceert -- Waarom dezelfde vraag verschillende antwoorden geeft +- Waarom het soms briljant is (patronen herkend) +- Waarom het soms onzin produceert (verkeerde voorspelling) +- Waarom dezelfde vraag verschillende antwoorden geeft (kans, niet zekerheid) ---