13,5 miljoen euro voor Nederlands AVG-proof taalmodel: 'Wij blijven niet stilzitten!'

De ontwikkeling van een Nederlands taalmodel leek voor Saskia Lensink, werkzaam bij TNO, aanvankelijk een onhaalbare kaart. Drie jaar na het initiële voorstel, is GPT-NL in de testfase bij de eerste organisaties, als een alternatief voor Amerikaanse AI-modellen. ‘Hoewel de budgetten kleiner zijn, is opgeven geen optie’, stelt Lensink.

‘Dat is waanzin,’ was de eerste reactie van Saskia Lensink, een taalwetenschapper bij TNO, toen haar collega Selmar Smit voorstelde om zelf een taalmodel te ontwikkelen bij de koffieautomaat.

In april 2023, zes maanden na de introductie van ChatGPT, merkte Smit een mogelijkheid op om financiering te verkrijgen voor een Nederlandse versie via een subsidie van het ministerie van Economische Zaken, bestemd voor nieuwe onderzoeksinfrastructuur. In november kreeg dit plan goedkeuring en een budget van 13,5 miljoen euro.

Drie jaar later is GPT-NL, de naam van het ontwikkelde taalmodel, zover dat de eerste klanten het model sinds anderhalve maand testen. Het betreft vier overheidsorganisaties en TNO zelf. Zo onderzoekt het ministerie van Binnenlandse Zaken of GPT-NL de antwoorden van chatbot ‘Gem’, gebruikt door bijna dertig gemeenten, kan verbeteren.

Lensink, als productmanager verantwoordelijk voor een team van 25 medewerkers, superviseert dit proces. Naast TNO zijn ook het Nederlands Forensisch Instituut en ICT-coöperatie Surf betrokken; laatstgenoemde heeft de rekenkracht van de nationale supercomputer Snellius ter beschikking gesteld waarop het model getraind is.

Geen Ferrari, maar een Fiatje

Lensink’s aanvankelijke twijfels verdwenen snel. ‘Mijn eerste indruk was dat het onmogelijk was, te groot en complex. Maar ik zag de potentie van LLMs (large language models), en dat buitenlandse modellen destijds het Nederlands onvoldoende beheersten voor kritische toepassingen. De herverkiezing van Trump benadrukte dat Europa niet afhankelijk kan blijven van Amerikaanse technologieën,’ legt ze uit.

De introductie van de Chinese chatbot DeepSeek was een keerpunt. Terwijl grote bedrijven miljarden investeerden in de ontwikkeling van modellen zoals ChatGPT, Claude en Gemini, claimde DeepSeek slechts enkele miljoenen nodig te hebben voor zijn AI-training. ‘Mensen zagen dat je ook met minder geld sterke technologie kunt ontwikkelen,’ zegt Lensink.

Met een budget van 13,5 miljoen euro waren keuzes noodzakelijk. ‘Je kunt voor dat bedrag geen Ferrari verwachten, eerder een Fiatje,’ zegt Lensink nuchter.

LEES LionVolt's Europese superbatterij bijna realiteit: 'Een tweede Northvolt is geen optie!'

Aanvulling op de AI-stack

De eerste keuze was om geen publieke chatbot zoals ChatGPT te ontwikkelen, maar een ‘motorblok’ voor bedrijven en overheden om eigen toepassingen op te bouwen en op lokale servers te draaien.

Dit zorgt ervoor dat gevoelige of geclassificeerde informatie binnen de bedrijfsmuren blijft; TNO onderzoekt onder andere of GPT-NL nuttig kan zijn voor kritische documenten die niet op Amerikaanse servers mogen belanden.

‘Volgens onderzoek van Eurostat mijdt ongeveer 4 procent van de EU-burgers – zo’n 18 miljoen Europeanen – generatieve AI vanwege privacy- of veiligheidszorgen,’ meldt Lensink. ‘GPT-NL speelt in op deze behoefte. We willen dat organisaties GPT-NL beschouwen als een aanvulling op hun bestaande AI-stack, om minder afhankelijk te zijn van enkel Amerikaanse leveranciers. Dit vermindert de risico’s van geopolitieke spannинg, faillissementen of prijsverhogingen.’

Geen ‘Nederlandse ChatGPT’

De omschrijving van GPT-NL als een ‘Nederlandse ChatGPT’ is niet accuraat. Het model is ook niet geschikt voor het genereren van afbeeldingen of voor het schrijven van code.

‘We hebben pragmatisch overwogen wat GPT-NL moet kunnen om waardevol te zijn voor onze doelgroep. Een model dat goed een samenvatting kan maken of complexe teksten kan vereenvoudigen heeft al grote waarde,’ zegt Lensink.

Verder is het model getraind om vragen te beantwoorden via zogenaamde retrieval augmented generation (RAG), wat inhoudt dat het model informatie uit databestanden en interne documenten kan halen en op basis daarvan antwoorden formuleert. Dit is vooral handig voor burgers die informatie willen vinden op de vele overheidswebsites.

‘Voor deze taken heb je geen enorm geavanceerd model nodig. Een doelgericht model is voldoende,’ zegt Lensink.

‘Compliant by design’

Volgens Lensink kan GPT-NL beter samenvatten dan oudere AI-modellen zoals ChatGPT-3. ‘We merken wel dat ons model explicietere aanwijzingen nodig heeft. Niet alleen ‘vat deze tekst samen’, maar ook prompts zoals ‘je bent goed in samenvatten, je bent altijd volledig en compleet en je doet dit al twintig jaar’.’ Over de pilotfase wil ze nog niet veel kwijt. ‘Het is te vroeg om conclusies te trekken, maar de eerste resultaten zijn hoopvol.’

LEES Nick de Ronde Bresser redt Van Lier: Cruciale lessen uit mislukte Gsus overname!

Na de pilotfase is het plan om GPT-NL in de tweede helft van het jaar breder uit te rollen, met licenties voor gebruik en aanvullende diensten voor integratieondersteuning.

GPT-NL belooft een soeverein alternatief dat ‘compliant by design‘ is. ‘We zijn het eerste grote taalmodel dat volledig voldoet aan de AVG-privacywetgeving,’ zegt Lensink trots. ‘We hebben onlangs zelfs een prijs gewonnen. We zijn een van de weinige die volledig inzicht kunnen bieden in de datasets waarmee GPT-NL is getraind. We hebben de data verkregen zonder auteursrechten te schenden en hebben extra maatregelen genomen om privacyrisico’s te beperken. Gevoelige data zoals namen en adressen hebben we verwijderd.’

Hoogwaardige data, geen rommel

Lensink waarschuwt voor een nieuw fenomeen: vergiftigde documenten. Dat zijn datasets voorzien van specifieke zinnen die bepaald gedrag bij een taalmodel kunnen activeren. ‘Niet alleen hebben grote AI-spelers hun data vaak onrechtmatig verkregen, de bron wordt nu ook vervuild. Ons voordeel is dat er weinig rommel in onze data zit,’ legt ze uit.

Zorgt dat ook voor minder bias in de antwoorden die GPT-NL geeft? Lensink vindt het lastig te beoordelen. ‘De modellen van grote techbedrijven zijn getraind met grote delen van het internet, vol ongewenste teksten: nepnieuws, roddels, haatzaaiende uitlatingen en meer. Wij gebruiken alleen hoogwaardige data, en we verwachten daardoor een beter resultaat. Quality in means quality out. Maar het blijft een uitdaging dat niet alle groepen Nederlanders voldoende vertegenwoordigd zijn in de beschikbare data, of soms zelfs helemaal niet.’

Bijvoorbeeld mensen die laaggeletterd zijn, zijn ondervertegenwoordigd, volgens een representatieonderzoek van GPT-NL. En doordat het model geen data van sociale media traint, wordt straattaal minder goed herkend.

Data commercialiseren

Het eerlijk verzamelen van data kost tijd, waardoor GPT-NL een jaar later dan gepland kon beginnen met trainen. Een doorbraak kwam in de zomer van 2025, toen GPT-NL een overeenkomst sloot met NDP Nieuwsmedia. Deze organisatie vertegenwoordigt meer dan 30 mediabedrijven en nieuwstitels, waaronder DPG Media (bijvoorbeeld Volkskrant, Trouw, Nu.nl) en Mediahuis (NRC).

LEES Must reads week 20: Ontdek de nieuwe ASML's via universiteiten, met Ben Cohen en Thorizon!

Dit is cruciale brandstof voor het model, volgens Lensink. ‘We hebben elkaar nodig; op hun beurt zoeken mediabedrijven naar nieuwe manieren om hun data te commercialiseren, nu hun verdienmodel door AI onder druk staat. Met deze samenwerking geven ze een duidelijk signaal af: je kunt zaken met ons doen.’

Goede data zijn duur. De datasets van de nieuwsmedia zijn honderden miljoenen euro’s waard, een bedrag dat GPT-NL niet heeft. Daarom is er een licentieovereenkomst bedacht waarbij de inkomsten worden verdeeld tussen de ‘dataleveranciers’ en de financiering van onderhoud en doorontwikkeling van het model.

Krachtige opvolger

GPT-NL moet zelfstandig geld gaan verdienen, benadrukt Lensink. ‘Zonder een duurzaam businessmodel riskeren we dat het project stopgezet wordt zodra de subsidie ophoudt. We zijn ook op zoek naar financiering voor een nieuwe productlijn, een krachtiger opvolger van wat we nu hebben.’

Er is interesse vanuit andere Europese landen, en Europese lidstaten volgen nauwlettend de juridische en organisatorische structuur van GPT-NL, volgens Lensink.

We staan op een kritiek moment, stelt ze. ‘In de komende jaren zal big tech waarschijnlijk verder uitlopen. Als we competitief willen blijven, is aanzienlijk meer investering nodig.’

Hoewel de budgetten hier kleiner zijn dan die van Amerikaanse tegenhangers, is opgeven geen optie. ‘Ja, de budgetten zijn kleiner. Maar dat betekent niet dat we ons gewonnen moeten geven,’ concludeert Lensink.

Re:Europe

Vergelijkbare berichten

Beoordeel dit post

Anika Storm

Anika schrijft over tuinieren, natuur en ecologie. Ze deelt praktische tips en seizoensgebonden inspiratie voor elke tuinliefhebber. Haar stukken combineren vakkennis en passie, met oog voor biodiversiteit, duurzaamheid en welzijn. Ze moedigt lezers aan om bewuster en groener te leven, te starten in eigen tuin.

X Facebook WhatsApp

Geen Ferrari, maar een Fiatje

Aanvulling op de AI-stack

Geen ‘Nederlandse ChatGPT’

‘Compliant by design’

Hoogwaardige data, geen rommel

Data commercialiseren

Krachtige opvolger

Vergelijkbare berichten

Theatericoon Norman de Palm (78) overleden: Nederland rouwt om verlies van culturele gigant

Trump feliciteert Artemis II astronauten na historische maanreis: ‘Pioniers van deze tijd’

Plaats een reactie Reactie annuleren

13,5 miljoen euro voor Nederlands AVG-proof taalmodel: ‘Wij blijven niet stilzitten!’

Geen Ferrari, maar een Fiatje

Aanvulling op de AI-stack

Geen ‘Nederlandse ChatGPT’

‘Compliant by design’

Hoogwaardige data, geen rommel

Data commercialiseren

Krachtige opvolger

Vergelijkbare berichten

Plaats een reactie Reactie annuleren