Bias en stereotypen

hoofdstuk

door: Steven Trooster

3 min.

In generatieve AI modellen, kan een bias en stereotypering zitten. Dit kan ontstaan door meerdere oorzaken.

Trainingsdata

Generatieve AI-modellen kunnen niet het verschil zien tussen goed en fout. Ze bevatten alleen informatie uit hun trainingsdata, die vaak bestaat uit informatie verkregen van grote delen van het internet. Menselijke vooroordelen en stereotypen die aanwezig zijn in deze trainingsdata, zoals die met betrekking tot ras, geslacht, etniciteit en sociaaleconomische status, kunnen daarom worden weerspiegeld in de output. Een dataset die vaak wordt gebruikt voor het trainen van generatieve AI-modellen is het enorme (meer dan 9,5 petabytes) vrij beschikbare archief van webcrawl-data dat Common Crawl biedt. Deze datasets zijn niet geheel vrij van vooroordelen en andere problematische inhoud , en een generatief AI-model dat daarop is getraind, kan dergelijke bevoordeelde inhoud dus in zijn output opnemen. In onderstaande afbeelding zie je uit welke landen de trainingsdata van de meeste AI-modellen afkomstig zijn en de grootte van de dataset uit die landen. Merk op dat de Westerse wereld, in het bijzonder de Verenigde Staten, oververtegenwoordigd is.

Country bias — Bron: https://2022.internethealthreport.org/facts/

Training

Zoals we eerder gezien hebben, worden trainingsdata opgeschoond voordat het trainen daadwerkelijk begint. Je wil expliciete data eruit gehaald hebben voor je de trainingsfase in gaat. Dit gebeurt deels geautomatiseerd, maar er zullen ook mensen een beoordeling moeten doen van content die geautomatiseerd als onwenselijk is aangemerkt. Dit handmatig beoordelen wordt vaak uitbesteed aan lagelonenlanden zoals Kenya, waar mensen dagelijks expliciete content te zien krijgen voor beoordeling.Nadat een model is gevoed met trainingsdata, is het in staat om teksten te genereren. Het systeem kan nu correcte zinnen genereren, maar dit kan van alles zijn, waaronder ook racistische taal, instructies voor zelfdoding of andere ethische aspecten, ondanks de eerdere filtering in de bronnen. Daarom is er een menselijke factor die de modellen leert wat correcte en wenselijke uitkomsten kunnen zijn. Maar wees je er van bewust dat de vooroordelen van de mensen die de modellen trainen ook worden weerspiegeld in de uiteindelijke output.

Filters

Hoewel grote technologiebedrijven zogenaamde 'veiligheidsmaatregelen' (filters) hebben ingebouwd om te voorkomen dat er onethische, hatelijke en discriminerende resultaten worden gegenereerd, blijft er een risico op vooroordelen vanwege de vooroordelen die inherent aanwezig zijn in de trainingsdata. Daarnaast weten we niet precies welke filters zijn ingesteld door de ontwikkelaars en welke output wel en welke niet als acceptabel wordt beschouwd. Dat werd bijvoorbeeld duidelijk bij de lancering van het Chinese Deepseek: voor de Chinese overheid onwelgevallige uitkomsten, zoals teksten over de demonstraties op het Tiananmenplein werden gefilterd met de mededeling "Sorry, that’s beyond my current scope. Let’s talk about something else." *

Voorbeelden

Als een model wordt getraind op een dataset die bepaalde banen associeert met specifieke geslachten, is de kans groter dat het model output genereert die deze stereotypen bevestigt. Je moet altijd de AI-gegenereerde output controleren op vooroordelen, stereotypen en andere schadelijke inhoud. Wanneer je GenAI vraagt om een afbeelding te maken van 'een bioloog die werkt in een ultramodern laboratorium', is de gegenereerde afbeelding eerder geneigd een witte mannelijke wetenschapper af te beelden dan een vrouwelijke wetenschapper van kleur.

Voorbeeld 1

Voorbeeld 2

Bias mitigatie

GenAI-ontwikkelaars zijn zich bewust van deze vooroordelen en hebben hard gewerkt om ze aan te pakken. Dit heeft echter een hele reeks nieuwe problemen opgeworpen. In februari 2024 veroorzaakte Google controverse toen zijn GenAI-model Google Gemini terughoudend leek te zijn geworden om afbeeldingen van witte mensen te genereren in een poging om de output van zijn afbeeldingsgenerator diverser te maken. Bijvoorbeeld, een zoekopdracht om 'afbeelding van de paus' te genereren resulteerde in afbeeldingen van een zwarte en een vrouwelijke paus. En bij het vragen om foto's van 'een Amerikaanse senator uit de 19e eeuw', gaf het model resultaten zoals hieronder.

Bron: https://www.theverge.com/2024/2/21/24079371/google-ai-gemini-generative-inaccurate-historical

Deze resultaten, hoewel diverser, zijn historisch onjuist. Google heeft sindsdien excuses aangeboden en schreef op X dat "Gemini's AI-afbeeldingsgeneratie een breed scala aan mensen genereert. En dat is over het algemeen een goede zaak omdat mensen over de hele wereld het gebruiken. Maar het mist hier de juiste toon." (geciteerd in The Verge , 2024). Grote technologiebedrijven zullen blijven werken aan het aanpakken van deze problemen.

Tips

Wanneer je AI-gegenereerde output evalueert, gebruik je kritische denkvermogen om eventuele vooroordelen of stereotypen in de output te identificeren, en controleer de informatie met academische bronnen (bijvoorbeeld via de Universiteitsbibliotheek) om een meer gebalanceerd beeld te krijgen.