Voor de beste ervaring schakelt u JavaScript in en gebruikt u een moderne browser!
Je gebruikt een niet-ondersteunde browser. Deze site kan er anders uitzien dan je verwacht.
Per 1 september biedt de Universiteit van Amsterdam UvA AI Chat aan voor studenten en docenten. Deze pagina biedt informatie over hoe UvA AI Chat invulling kan geven aan de dialoog over verantwoord gebruik van AI, privacygerelateerde vraagstukken, de rol van externe partijen en de omgang met (persoons)gegevens vanuit zowel de Universiteit van Amsterdam als als gebruikers. Ten slotte geeft deze pagina een toelichting op actuele inhoudsfilters en de overwegingen die hieraan ten grondslag liggen.

Bevorderen van dialoog over verantwoord gebruik van AI (Responsible use of AI, RAI)

Met het aanbieden van UvA AI Chat borgt de UvA de vereisten uit bestaande wetgeving en eigen beleidskaders. Dit biedt basis voor een dialoog over de invulling van verantwoord gebruik van AI als academische gemeenschap. In de dialoog over RAI kan UvA AI Chat en het projectteam een belangrijke bijdrage leveren door te verkennen hoe met deze voorziening theoretische kaders en richtlijnen kunnen worden vertaald naar praktische toepassingen in het hoger onderwijs.

Lees meer over de andere relevante juridische en beleidskaders: 

Privacy, betrokkenheid van externe partijen en omgang met data

Gegevens die via UvA AI Chat worden verwerkt, waaronder chatinhoud, zijn nooit toegankelijk voor partijen buiten de UvA en worden niet gebruikt om modellen te trainen. Ongeacht het gekozen model worden alle gegevens vóór verzending geanonimiseerd, zodat ze niet aan een specifieke persoon kunnen worden gekoppeld.
 

Veelgestelde vragen

  • Hoe verloopt de datastroom binnen UvA AI Chat in de regel?
    1. De gebruiker plaatst een prompt in UvA AI Chat.
    2. (Herleidbare) identiteitskenmerken worden verwijderd of vervangen, waardoor de prompt wordt geanonimiseerd.
    3. Het verzoek wordt doorgestuurd naar het model-endpoint (het digitale adres waarnaar een prompt wordt gestuurd voor verwerking). Binnen UvA AI Chat zijn verscheidene modellen beschikbaar; welk endpoint wordt gebruikt is afhankelijk van het model dat de gebruiker kiest. Afhankelijk van de provider van het model gebeurt het volgende:  
      1. Als de gebruiker een model kiest dat wordt aangeboden door SURF, wordt het verzoek verwerkt op infrastructuur dat onder hun directe beheer staat. (Wat is SURF?)
        Momenteel wordt bij alle modellen de verwerking nog gedaan via Azure. We verwachten echter op zeer korte termijn modellen te kunnen uitbieden via SURF. 
      2. Als de gebruiker een model kiest waarbij de verwerking plaatsvindt op Microsoft Azure-servers, wordt het verzoek doorgestuurd naar een endpoint dat is goedgekeurd voor gebruik binnen de UvA. Dat wil zeggen dat alle gegevensverwerking voldoet aan dezelfde veiligheidseisen als andere diensten die de UvA afneemt van Microsoft. De volgende sectie bevat meer informatie over wat dit inhoudt.
    4. Het model levert een resultaat, wat via een versleutelde verbinding wordt teruggestuurd naar de gebruiker.

    Gedurende dit hele proces worden chatberichten of andere geüploade gegevens nooit gebruikt om modellen te trainen. Bestaande regelgeving en beleid rond privacy en (persoons)gegevens blijven niettemin onverkort van toepassing, zoals die over Research Data Management en in het bijzonder de diverse wettelijke vereisten binnen voor gezondheidswetenschappelijke praktijk, onder meer de WGBO (externe verwijzing) en de WMO (externe verwijzing). Upload bijvoorbeeld nooit documenten met (lijsten van) namen van studenten, patiënten of proefpersonen. Raadpleeg bij twijfel altijd de informatiepagina over beleid en regelingen of de aangewezen data steward van jouw faculteit.

  • Hoe gaan verschillende providers om met gegevensverwerking, zoals Microsoft?

    De UvA bepaalt zelf welke modellen beschikbaar zijn in UvA AI Chat en is in deze keuze niet afhankelijk van één aanbieder. Verzoeken voor bepaalde open-sourcemodellen, zoals LLama, worden bijvoorbeeld verwerkt door servers van SURF in Nederland, waarvan de data uiteraard niet toegankelijk zijn voor derden of commerciële partijen.

    Daarnaast gebruikt UvA AI Chat onder andere Microsoft Azure voor de verwerking van chatverzoeken, bijvoorbeeld bij modellen van OpenAI. Dit betekent niet dat Microsoft of OpenAI toegang heeft tot of eigenaar is van de gegevens. Belangrijk hierbij is het onderscheid tussen infrastructuurhosting en model-inference (het genereren van content): Microsoft levert de rekencapaciteit via Azure, terwijl de UvA de softwarediensten beheert, zoals taalmodellen, gegevensopslag en webhosting. Dit houdt in dat de inhoud van gegevens niet inzichtelijk is voor Microsoft of OpenAI. Ter vergelijking: de Universiteit gebruikt al Microsoft 365 en OneDrive. Microsoft levert het platform, maar documenten blijven privé voor gebruiker en Universiteit. Verwerking van verzoeken in Azure voor UvA AI Chat functioneert binnen dezelfde privacykaders.

    Wanneer bijvoorbeeld een OpenAI-model wordt gebruikt binnen UvA AI Chat, wordt de geanonimiseerde prompt doorgestuurd naar de bijbehorende inferentiedienst. In tegenstelling tot chatgpt.com draait deze dienst niet op servers van OpenAI, maar op Azure-servers die voldoen aan de ‘EU Data Boundary’. De EU Data Boundary is een door Microsoft geïmplementeerde waarborg die ervoor zorgt dat persoonsgegevens en klantdata van Europese gebruikers uitsluitend binnen de EU worden opgeslagen en verwerkt. Het bestaat om te voldoen aan Europese privacywetgeving (zoals de AVG) en om te voorkomen dat gegevens buiten de EU-regio toegankelijk zijn. Dit verzekert dat noch Microsoft noch OpenAI toegang heeft tot de inhoud van gesprekken.

    Tot slot: OpenAI-modellen buiten de eigen omgeving of API van OpenAI zijn momenteel uitsluitend via Microsoft Azure beschikbaar. Microsoft is grootaandeelhouder in de commerciële tak van OpenAI beheert grotendeels de intellectuele eigendomsrechten van OpenAI.

  • In welke hoedanigheid zijn ‘big-tech’-bedrijven betrokken?

    Zoals hierboven aangestipt leveren momenteel ‘big tech’-bedrijven verscheidene verwerkingsdiensten, bijvoorbeeld de door Microsoft aangeboden OpenAI-modellen. Ook voor andere functionaliteiten, bijvoorbeeld de implementatie van zoekmachines, is de UvA al snel toegewezen op een derde partij, omdat het zelf opbouwen van zo een dienst in de praktijk moeilijk te realiseren is. Het blijft hierbij belangrijk om te benadrukken dat als er diensten worden afgenomen van derde of commerciële partijen, de UvA uiteindelijk kiest welke partijen dit zijn. UvA AI Chat is zelfstandig ontwikkeld en op termijn niet gebonden aan één (commerciële) aanbieder.

Basis-systeemprompt en content-filters: het bieden van een evenwichtig startpunt

Academische vrijheid is een fundamentele waarde voor de Universiteit, waarbij het risico op censuur een voortdurend aandachtspunt vormt. Het opstellen van een volledig juridisch of theoretisch kader, en de vertaling daarvan naar UvA AI Chat, is daarom een aangelegenheid die zorgvuldigheid vereist. Hiermee wordt de definitieve (al dan niet continue) invulling van dit kader een langetermijnproces. Tegelijkertijd is de beschikbaarheid van UvA AI Chat als praktische omgeving nodig voor het testen en vormen van een dergelijk theoretisch kader. Daarom moet de UvA bij de livegang van UvA AI Chat al bepaalde filters hanteren om veilig maar werkbaar startpunt voor deze dienst mogelijk te maken. De onderstaande toelichting biedt transparantie over de huidige content filters in UvA AI Chat, en motiveert de keuzes hierin met het oog op veiligheid, academische vrijheid het risico op censuur.

Systeemprompt en Persona’s

UvA AI Chat gebruikt een minimaler ‘systeemprompt’ dan meeste commerciële diensten. Een systeemprompt is de eerste, meestal verborgen instructie die de rol, het gedrag, de randvoorwaarden en de context van een GenAI-model vastlegt en zo de reacties tijdens een gesprek voor een groot deel stuurt. Hierdoor kan hetzelfde model binnen UvA AI Chat andere informatie of terminologie opleveren dan in andere omgevingen. Zo kan een model van OpenAI binnen UvA AI Chat anders reageren op bepaalde onderwerpen dan op chatgpt.com. De reden om de systeemprompt minder restrictief te houden is dat commercieel ingevoerde beperkingen het academisch gebruik niet onnodig in de weg mogen staan.

Het huidige uitgangspunt voor systeemprompts vormt een pragmatisch startpunt en is niet definitief. Voor wie de mogelijkheden van prompting wil verkennen is er een Persona-feature beschikbaar binnen UvA AI Chat. Met Persona’s kunnen gebruikers vooraf gedefinieerde gespreksrollen vormgeven die de toon en het gedrag van een model sturen. Hiermee kan bijvoorbeeld mee worden geëxperimenteerd om basisprompts te vormen die nauwer aansluiten bij onderzoeks- of onderwijsdoelen. Ook kunnen gebruikers UvA AI Chat personaliseren op gespreksstijl, en custom-instructies instellen die gelden voor alle chats buiten Persona’s via het Settings-menu (zie Conversation Style en Use Custom Instructions onder Settings > Personalization).

Zie de UvA AI Chat-gebruikshandleiding om meer te leren over het gebruik van Persona’s:

Parallel aan de doelstelling academische vrijheid zo min mogelijk te belemmeren hanteert UvA AI Chat momenteel niettemin enige beperkingen op wat er met modellen kan worden gedaan met input- en outputfilters: niet alles kan of mag. Naast de standaardbeschermingen (bijvoorbeeld voor auteursrecht en cybersecurity) hanteert de UvA beperkingen op vier thema’s die nauw aansluiten bij het toepassing geven aan verantwoord gebruik. In de volgende secties worden deze filters toegelicht, wat het strerkteniveau is per filter, en wordt er een motivering gegeven voor deze keuzes.

Overzicht van filters

Contentfilters zijn instelbare veiligheidsfilters die op basis van gradaties van zwaarte inhoud screenen op vier gebieden: haat (Hate), seksuele inhoud (Sexual), zelfschade (Self-harm) en geweld (Violence). Het doel van deze filters is dat UvA AI Chat academisch gebruik ondersteunt maar de vervaardiging van schadelijk of ongepast materiaal voorkomt.

  • Haat (Hate): detecteert beledigingen of denigrerende inhoud over beschermde groepen.
     
  • Seksuele inhoud (Sexual): detecteert expliciet of pornografisch materiaal; staat niet-expliciete romantiek en klinische termen toe.
     
  • Zelfschade (Self-harm): detecteert verzoeken om methoden, aanmoediging of instructies; staat alleen ondersteunde, niet-instruerende bespreking toe.
     
  • Geweld (Violence): detecteert verzoeken of instructies tot geweld; staat neutrale, niet-grafische historische samenvattingen toe.

Elk filter heeft een drempelwaarde voor zwaarwichtigheid (severity threshold). Voor zowel inkomende als uitgaande berichten wordt per thema ingeschat hoe zwaarwichtig de inhoud is (low, medium of high). Afhankelijk van deze classificatie wordt de filter al dan niet geactiveerd. De filters werken als volgt:

  • Low blokkeert content met de vastgestelde waarden low, medium en high.
  • Medium blokkeert medium en high, laat low toe.
  • High is het meest permissief: het blokkeert alleen content met de classificatie high en laat de rest toe.

Kort gezegd: de drempelwaarde high laat meer toe, low laat minder toe; het is een drempelwaarde voor wanneer de filter wordt geactiveerd, niet voor de content.

Input- versus outputfilters

  • Inputfilters controleren wat een gebruiker invoert vóórdat het model dit verwerkt. Als de invoerwaarde de drempel overschrijdt, wordt het verzoek direct geblokkeerd. Voorbeeld: een expliciet seksueel verzoek wordt al bij de invoer geblokkeerd.
  • Outputfilters controleren wat het model op het punt staat te genereren. Als de conceptreactie de drempel zou overschrijden, wordt die gestopt of vervangen door een veiliger alternatief. Voorbeeld: zelfs als een gebruiker een hatelijke passage plakt (ter analyse), voorkomt het outputfilter dat het model hatelijk taalgebruik zelf reproduceert.

Door input en output te scheiden, kunnen medewerkers waar passend gevoelig bronmateriaal analyseren, terwijl wordt voorkomen dat het systeem zelf schadelijke inhoud genereert.

 

Motivatie en toelichting per filter

  • Haat

     Flow

     Aan?

     Blocking?

     Drempelwaarde

     Geblokkeerd (voorbeelden)

     Doorgelaten (voorbeelden)

     Input

     Nee

     n.v.t.

     n.v.t.

     n.v.t.

    Het is mogelijk om haatdragende inhoud te analyseren; output valt nog steeds onder aparte regels.

     Output

     Ja

     Ja

     Low

    Haatdragende beledigingen richting een beschermde groep in de output van een model.

    Neutrale bespreking van waarom hate speech schadelijk is, zonder scheldwoorden.

    Motivatie

    Medewerkers en studenten kunnen nog steeds primaire bronnen met bijvoorbeeld scheldwoorden citeren of plakken voor analyse in onderwijs en onderzoek. Het model zelf blijft echter uitgesloten van het produceren van haatdragende output ter bevordering van een veilige leeromgeving.

    Consequenties bij aanpassing door UvA

    • Als input zou worden ingeschakeld op low, dan zouden bronteksten met scheldwoorden worden geblokkeerd, waardoor kritische analyse in taalkunde, geschiedenis, rechten en mediastudies mogelijk wordt belemmerd.
    • Als output zou worden versoepeld naar medium of uitgeschakeld, zou het model haatdragende inhoud kunnen genereren of versterken.
  • Seksuele inhoud

     Flow

     Aan?

     Blocking?

     Drempelwaarde

     Geblokkeerd (voorbeelden)

     Doorgelaten (voorbeelden)

     Input

     Ja

     Ja

     Medium

     Expliciete of erotische input door de gebruiker.

     Romantiek zonder expliciete details; klinische termen.

     Output

     Ja

     Ja

     Medium

     Genereren van expliciet seksuele inhoud.

     Niet-expliciete intimiteit; algemene seksuele gezondheid.

    Motivatie

    Dit laat werken met literatuur, kunst en materiaal rond seksuele gezondheid toe, terwijl pornografische of expliciet seksuele inhoud wordt geblokkeerd. Het ondersteunt onderwijs en onderzoek dat neutrale samenvattingen of klinische bespreking vereist zonder onnodig geseksualiseerde details.

    Consequenties bij aanpassing door UvA

    • Als de drempel in beide flows wordt verlaagd naar low, zouden zelfs lichte romantiek of standaardterminologie rond seksuele gezondheid kunnen worden geblokkeerd, mogelijk onderwijs in literatuur, klassieke studies, geneeskunde en sociale wetenschappen verstoort.
       
    • Als de drempel in beide flows wordt verhoogd naar high of filters worden uitgeschakeld, zou pornografisch materiaal of geseksualiseerde beschrijvingen kunnen worden verwerkt of geproduceerd. Alhoewel dit niet strikt gezien altijd irrelevant is voor academische doeleinden vormt het toestaan van deze gebruikswegen risico’s voor het schenden van bestaande beleidsnormen.
  • Zelfschade

     Flow

     Aan?

    Blocking?

     Drempelwaarde

     Geblokkeerd (voorbeelden)

     Doorgelaten (voorbeelden)

     Input

     Ja

     Ja

     Medium

    Verzoeken om methoden, intenties of aanmoediging.

    Ondersteunende of informatieve vragen zonder instructies. 

     Output

     Ja

     Ja

     Medium

    Enige instruerende of aanmoedigende output over zelfschade.

    Ondersteunende, niet-instruerende begeleiding en doorverwijzing.

    Motivatie

    De filters voorkomen dat methoden voor zelfschade worden verkregen of gegenereerd, terwijl discussie over epidemiologie, preventie, ethiek en beleid mogelijk blijft, evenals ondersteunende, niet-klinische taal en doorverwijzingsmogelijkheden, waar gepast.

    Consequenties bij aanpassing door UvA

    • Als de drempel in beide flows wordt verhoogd naar high of filters worden uitgeschakeld, zouden verzoeken voor methoden voor zelfschade kunnen worden doorgelaten, wat duidelijke veiligheids- en zorgplichtproblemen oplevert.
    • Als de drempel in beide flows wordt verlaagd naar low, zouden academische vragen over preventieprogramma’s of de geschiedenis van publieke gezondheids­campagnes onnodig kunnen worden geblokkeerd, evenals doorverwijzing waar gepast.
  • Geweld

     Flow

     Aan?

     Blocking?

     Drempelwaarde

     Geblokkeerd (voorbeelden)

     Doorgelaten (voorbeelden)

     Input

     Ja

    Ja

     Low

    Enige gewelddadige of instruerende inhoud, zelfs milde.

    Algemeen historisch benoemen zonder verdere gewelddadige instructies.

     Output

     Ja

    Ja

     Low

    Enige gewelddadige output, zelfs milde.

    Niet-grafische historische samenvattingen zonder instructies.

    Motivatie

    Deze instelling voorkomt dat het model verzoeken om, of instructies tot geweld accepteert of genereert, terwijl neutrale en algemene behandeling van gewelddadige onderwerpen beschikbaar blijft.

    Consequenties bij aanpassing door UvA

    • Als de drempel in beide flows wordt verhoogd naar medium of filters worden uitgeschakeld, zouden vragen of antwoorden praktische aanwijzingen voor geweld of bewapening kunnen bevatten, wat ongepast is en mogelijk onveilig.
    • Als de drempel in beide flows verder zou worden aangescherpt voorbij low (volledig uitzetten), zouden zelfs neutrale historische vragen kunnen worden geblokkeerd, wat legitiem onderwijs en onderzoek kan belemmeren.