Hoe worden LLM's getraind?
Opschonen data
Om generative AI en in het bijzonder een large language model te trainen wordt gebruikt gemaakt van een grote hoeveelheid bronnen; dat kunnen wel miljoenen internetpagina's, boeken en afbeeldingen zijn. Tussen die bronnen kunnen ook veel dubbeldingen zitten, maar ongewenste inhoud zoals handelingen om bommen te maken, expliciete seksuele inhoud of instructies voor zelfmoord. De eerste stap is om deze data op te schonen, vóór het trainingsproces wordt gestart. Dat kan deels geautomatiseerd, bijvoorbeeld als het om dubbelingen gaat, maar veel data wordt met de hand gecontroleerd. Lesmateriaal over bijvoorbeeld seksuele voorlichting wordt anders misschien ten onrechte weggelaten.
Pre-training
Tijdens de pre-training wordt de computer gevoed met enorme hoeveelheden tekst (miljarden pagina’s), samen met de instructie om te leren hoe je teksten maakt die lijken op menselijke taal. In deze fase ontwikkelt het GenAI-model een intern patroon van hoe menselijke taal is opgebouwd. Dit wordt ook wel een foundation model genoemd.
Je kunt dit patroon vergelijken met een complexe tabel of ‘taalkaart’ in meerdere dimensies (meer dan de drie dimensies die wij kunnen voorstellen). In die kaart staan woorden, zinnen en structuren die op elkaar lijken dichter bij elkaar, en verschillen juist verder uit elkaar. Op basis van deze kaart wordt een neuraal netwerk getraind, dat vervolgens in staat is om eenvoudige nieuwe teksten te genereren.
Na deze fase kan het GenAI-model dus al menselijke tekst produceren, maar het is nog niet nauwkeurig of betrouwbaar genoeg om direct beschikbaar te stellen aan het brede publiek.
Fine-tuning
In de fine-tuningfase wordt het model verder geoptimaliseerd, zodat het beter wordt in het uitvoeren van specifieke taken of het geven van gewenste antwoorden. Hierbij krijgen de antwoorden van het model feedback van menselijke beoordelaars.
Dit is nodig omdat taal veel verschillende functies heeft – denk aan gesprekken voeren, samenvatten, rapporteren, of zelfs grappen maken – en elk type tekst stelt andere eisen. Bovendien kunnen modellen op basis van hun training ook onjuiste, kwetsende of potentieel gevaarlijke uitspraken doen.
De manier waarop het model wordt bijgestuurd hangt af van het beoogde gebruik en de keuzes van de ontwikkelaars (daarover later meer). Zonder fine-tuning zou het model minder betrouwbaar zijn, en daardoor ongeschikt voor gebruik door het grote publiek.
Meer weten?
Een gedetailleerde uitleg van hoe LLM's getraind worden, vind je hier:
What Is ChatGPT Doing … and Why Does It Work?
Stephen Wolfram explores the broader picture of what's going on inside ChatGPT and why it produces meaningful text. Discusses models, training neural nets, embeddings, tokens, transformers, language syntax.