13,5 miljoen euro voor Nederlands AVG-proof taalmodel: ‘Wij blijven niet stilzitten!’

april 19, 2026

Saskia Lensink GPT-NL

De ontwikkeling van een Nederlands taalmodel leek voor Saskia Lensink, werkzaam bij TNO, aanvankelijk een onhaalbare kaart. Drie jaar na het initiële voorstel, is GPT-NL in de testfase bij de eerste organisaties, als een alternatief voor Amerikaanse AI-modellen. ‘Hoewel de budgetten kleiner zijn, is opgeven geen optie’, stelt Lensink.

‘Dat is waanzin,’ was de eerste reactie van Saskia Lensink, een taalwetenschapper bij TNO, toen haar collega Selmar Smit voorstelde om zelf een taalmodel te ontwikkelen bij de koffieautomaat.

In april 2023, zes maanden na de introductie van ChatGPT, merkte Smit een mogelijkheid op om financiering te verkrijgen voor een Nederlandse versie via een subsidie van het ministerie van Economische Zaken, bestemd voor nieuwe onderzoeksinfrastructuur. In november kreeg dit plan goedkeuring en een budget van 13,5 miljoen euro.

Drie jaar later is GPT-NL, de naam van het ontwikkelde taalmodel, zover dat de eerste klanten het model sinds anderhalve maand testen. Het betreft vier overheidsorganisaties en TNO zelf. Zo onderzoekt het ministerie van Binnenlandse Zaken of GPT-NL de antwoorden van chatbot ‘Gem’, gebruikt door bijna dertig gemeenten, kan verbeteren.

Lensink, als productmanager verantwoordelijk voor een team van 25 medewerkers, superviseert dit proces. Naast TNO zijn ook het Nederlands Forensisch Instituut en ICT-coöperatie Surf betrokken; laatstgenoemde heeft de rekenkracht van de nationale supercomputer Snellius ter beschikking gesteld waarop het model getraind is.

Geen Ferrari, maar een Fiatje

Lensink’s aanvankelijke twijfels verdwenen snel. ‘Mijn eerste indruk was dat het onmogelijk was, te groot en complex. Maar ik zag de potentie van LLMs (large language models), en dat buitenlandse modellen destijds het Nederlands onvoldoende beheersten voor kritische toepassingen. De herverkiezing van Trump benadrukte dat Europa niet afhankelijk kan blijven van Amerikaanse technologieën,’ legt ze uit.

De introductie van de Chinese chatbot DeepSeek was een keerpunt. Terwijl grote bedrijven miljarden investeerden in de ontwikkeling van modellen zoals ChatGPT, Claude en Gemini, claimde DeepSeek slechts enkele miljoenen nodig te hebben voor zijn AI-training. ‘Mensen zagen dat je ook met minder geld sterke technologie kunt ontwikkelen,’ zegt Lensink.

Met een budget van 13,5 miljoen euro waren keuzes noodzakelijk. ‘Je kunt voor dat bedrag geen Ferrari verwachten, eerder een Fiatje,’ zegt Lensink nuchter.

LEES  Drones Beschermen Europa Ondanks Scepsis: ‘Uitdaging Te Groot Voor Één Bedrijf’

Aanvulling op de AI-stack

De eerste keuze was om geen publieke chatbot zoals ChatGPT te ontwikkelen, maar een ‘motorblok’ voor bedrijven en overheden om eigen toepassingen op te bouwen en op lokale servers te draaien.

Dit zorgt ervoor dat gevoelige of geclassificeerde informatie binnen de bedrijfsmuren blijft; TNO onderzoekt onder andere of GPT-NL nuttig kan zijn voor kritische documenten die niet op Amerikaanse servers mogen belanden.

‘Volgens onderzoek van Eurostat mijdt ongeveer 4 procent van de EU-burgers – zo’n 18 miljoen Europeanen – generatieve AI vanwege privacy- of veiligheidszorgen,’ meldt Lensink. ‘GPT-NL speelt in op deze behoefte. We willen dat organisaties GPT-NL beschouwen als een aanvulling op hun bestaande AI-stack, om minder afhankelijk te zijn van enkel Amerikaanse leveranciers. Dit vermindert de risico’s van geopolitieke spannинg, faillissementen of prijsverhogingen.’

Geen ‘Nederlandse ChatGPT’

De omschrijving van GPT-NL als een ‘Nederlandse ChatGPT’ is niet accuraat. Het model is ook niet geschikt voor het genereren van afbeeldingen of voor het schrijven van code.

‘We hebben pragmatisch overwogen wat GPT-NL moet kunnen om waardevol te zijn voor onze doelgroep. Een model dat goed een samenvatting kan maken of complexe teksten kan vereenvoudigen heeft al grote waarde,’ zegt Lensink.

Verder is het model getraind om vragen te beantwoorden via zogenaamde retrieval augmented generation (RAG), wat inhoudt dat het model informatie uit databestanden en interne documenten kan halen en op basis daarvan antwoorden formuleert. Dit is vooral handig voor burgers die informatie willen vinden op de vele overheidswebsites.

‘Voor deze taken heb je geen enorm geavanceerd model nodig. Een doelgericht model is voldoende,’ zegt Lensink.

‘Compliant by design’

Volgens Lensink kan GPT-NL beter samenvatten dan oudere AI-modellen zoals ChatGPT-3. ‘We merken wel dat ons model explicietere aanwijzingen nodig heeft. Niet alleen ‘vat deze tekst samen’, maar ook prompts zoals ‘je bent goed in samenvatten, je bent altijd volledig en compleet en je doet dit al twintig jaar’.’ Over de pilotfase wil ze nog niet veel kwijt. ‘Het is te vroeg om conclusies te trekken, maar de eerste resultaten zijn hoopvol.’

LEES  Investeerders Vechten om Dawnguard: De Nederlandse Belofte in Cybersecurity Disruptie!

Na de pilotfase is het plan om GPT-NL in de tweede helft van het jaar breder uit te rollen, met licenties voor gebruik en aanvullende diensten voor integratieondersteuning.

GPT-NL belooft een soeverein alternatief dat ‘compliant by design‘ is. ‘We zijn het eerste grote taalmodel dat volledig voldoet aan de AVG-privacywetgeving,’ zegt Lensink trots. ‘We hebben onlangs zelfs een prijs gewonnen. We zijn een van de weinige die volledig inzicht kunnen bieden in de datasets waarmee GPT-NL is getraind. We hebben de data verkregen zonder auteursrechten te schenden en hebben extra maatregelen genomen om privacyrisico’s te beperken. Gevoelige data zoals namen en adressen hebben we verwijderd.’

Hoogwaardige data, geen rommel

Lensink waarschuwt voor een nieuw fenomeen: vergiftigde documenten. Dat zijn datasets voorzien van specifieke zinnen die bepaald gedrag bij een taalmodel kunnen activeren. ‘Niet alleen hebben grote AI-spelers hun data vaak onrechtmatig verkregen, de bron wordt nu ook vervuild. Ons voordeel is dat er weinig rommel in onze data zit,’ legt ze uit.

Zorgt dat ook voor minder bias in de antwoorden die GPT-NL geeft? Lensink vindt het lastig te beoordelen. ‘De modellen van grote techbedrijven zijn getraind met grote delen van het internet, vol ongewenste teksten: nepnieuws, roddels, haatzaaiende uitlatingen en meer. Wij gebruiken alleen hoogwaardige data, en we verwachten daardoor een beter resultaat. Quality in means quality out. Maar het blijft een uitdaging dat niet alle groepen Nederlanders voldoende vertegenwoordigd zijn in de beschikbare data, of soms zelfs helemaal niet.’

Bijvoorbeeld mensen die laaggeletterd zijn, zijn ondervertegenwoordigd, volgens een representatieonderzoek van GPT-NL. En doordat het model geen data van sociale media traint, wordt straattaal minder goed herkend.

Data commercialiseren

Het eerlijk verzamelen van data kost tijd, waardoor GPT-NL een jaar later dan gepland kon beginnen met trainen. Een doorbraak kwam in de zomer van 2025, toen GPT-NL een overeenkomst sloot met NDP Nieuwsmedia. Deze organisatie vertegenwoordigt meer dan 30 mediabedrijven en nieuwstitels, waaronder DPG Media (bijvoorbeeld Volkskrant, Trouw, Nu.nl) en Mediahuis (NRC).

LEES  OpenUp zet in op AI-therapeuten met 20 miljoen: Zullen robots straks iedereen behandelen?

Dit is cruciale brandstof voor het model, volgens Lensink. ‘We hebben elkaar nodig; op hun beurt zoeken mediabedrijven naar nieuwe manieren om hun data te commercialiseren, nu hun verdienmodel door AI onder druk staat. Met deze samenwerking geven ze een duidelijk signaal af: je kunt zaken met ons doen.’

Goede data zijn duur. De datasets van de nieuwsmedia zijn honderden miljoenen euro’s waard, een bedrag dat GPT-NL niet heeft. Daarom is er een licentieovereenkomst bedacht waarbij de inkomsten worden verdeeld tussen de ‘dataleveranciers’ en de financiering van onderhoud en doorontwikkeling van het model.

Krachtige opvolger

GPT-NL moet zelfstandig geld gaan verdienen, benadrukt Lensink. ‘Zonder een duurzaam businessmodel riskeren we dat het project stopgezet wordt zodra de subsidie ophoudt. We zijn ook op zoek naar financiering voor een nieuwe productlijn, een krachtiger opvolger van wat we nu hebben.’

Er is interesse vanuit andere Europese landen, en Europese lidstaten volgen nauwlettend de juridische en organisatorische structuur van GPT-NL, volgens Lensink.

We staan op een kritiek moment, stelt ze. ‘In de komende jaren zal big tech waarschijnlijk verder uitlopen. Als we competitief willen blijven, is aanzienlijk meer investering nodig.’

Hoewel de budgetten hier kleiner zijn dan die van Amerikaanse tegenhangers, is opgeven geen optie. ‘Ja, de budgetten zijn kleiner. Maar dat betekent niet dat we ons gewonnen moeten geven,’ concludeert Lensink.

Re:Europe

Vergelijkbare berichten

Beoordeel dit post

Plaats een reactie

Share to...