Voor de beste ervaring schakelt u JavaScript in en gebruikt u een moderne browser!
EN

Hoe onderhoud je Wikipedia? Wat voeg je toe? En wanneer? Onderzoekers van de Universiteit van Amsterdam ontwikkelden een methode die suggesties voor nieuwe Wikipedia-pagina’s aanreikt. Dit gebeurt op basis van populariteit op sociale media. Zij presenteerden de nieuwe methode tijdens de European Conference on Information Retrieval.

Afbeelding: Wikipedia.org

David Graus, promovendus bij het Intelligent Systems Lab Amsterdam (ISLA) van de UvA, ontwikkelde met collega's een methode om automatisch nieuwe, opkomende of onbekende concepten te herkennen, nog voordat ze zijn opgenomen in Wikipedia. Het algoritme werkt door sociale media (Twitter) te analyseren, en leert onbekende concepten te herkennen door te kijken naar hoe mensen over concepten praten die al wel bekend zijn.

De onderzoekers gebruikten hiervoor ‘semantisch linken’, waarbij betekenis wordt gekoppeld aan woorden. Dit helpt bij het interpreteren van grote hoeveelheden content. Semantisch linken draait om het koppelen (linken) van woorden aan concepten die beschreven zijn in kennisbanken zoals Wikipedia of Freebase. Zo wordt slim gebruik gemaakt van de grote omvang van online kennisbanken, die samen miljoenen concepten beschrijven. Maar hoe link je concepten die (nog) niet op Wikipedia of Freebase staan beschreven?

Die vraag is van belang in verschillende domeinen, waaronder de digital forensics, waarbij rechercheurs ‘onbekende’ personen in email willen herkennen en linken, om zo bijvoorbeeld een profiel te genereren van sleutelpersonen binnen een netwerk. Ook in de context van nieuws speelt het identificeren van nog niet bekende concepten een belangrijke rol.

Zelflerend algoritme

‘Het algoritme dat we ontwikkelden is zelflerend, en maakt gebruik van de ‘voorkennis’ uit Wikipedia om nieuwe concepten te leren herkennen. Dit is een eerste stap naar het automatisch aanvullen van Wikipedia met nieuwe inhoud op basis van wat wordt besproken op sociale media,’ vertelt Graus. Hij presenteerde zijn werk op de European Conference on Information Retrieval.

Graus’ onderzoek wordt onder leiding van prof. dr. M. de Rijke uitgevoerd binnen het NWO-project ‘Semantic Search in E-Discovery’, onderdeel van het Forensic Science-programma.

Publicatiegegevens

Graus, D., Tsagkias, E., Buitinck, L., de Rijke, M (2014). Generating Pseudo-ground Truth for Detecting New Concepts in Social Streams. Advances in Information Retrieval, Proceedings of the 36th Conference on Information Retrieval (ECIR ’14).

Bekijk de paper