Folksonomy – De mythe van het semantische web

De volgende tekst gaat over de overeenkomsten en verschillen tussen
het Semantisch Web (een artikel van Tim Berners-Lee uit 2001 over hoe computers data kunnen begrijpen) en het recent populair geworden begrip folksonomy (een manier van categoriseren door gebruikers). Het gaat in op de begrippen zelf, de huidige voor en nadelen en geeft een toekomst verwachting

Inleiding

De eerste keer dat ik duidelijk het probleem van ordening onder ogen zag was op het moment dat mijn verzameling muziek cd’s te groot werd om alfabetisch te rangschikken.

Ik kwam toen voor de keuze onder welke categorie een album valt. Is het Pop, is het Rock, is het Techno of toch Electro, is het Punk of is het Metal, of is het Electro Punk? Gelukkig viel er met behulp van de website allmusic.com nog wel wat van te maken, hier staan alle bands en alle cd’s fijn gelabeld op wat het is. Maar toch komt wel eens dat twijfelende gevoel. Is deze cd toch niet meer Punk dan Electro, de artiesten komen toch uit de punk scène vandaan? Of wat moet ik nu met deze band die in het midden van al hun Pop cd’s zomaar een punk cd uitbrengt? Maar gewoon in een andere categorie stoppen, of toch maar de voorkeur geven aan dat een band maar in één categorie kan voorkomen en niet vaker.

The Semantic Web will bring structure to the meaningful content of Web pages, creating an environment where software agents roaming from page to page can readily carry out sophisticated tasks for users.
(Berners-Lee, 2001)

Ook internet kent zo zijn eigen indelingsvraagstukken. In 2001 deed Tim Berners-Lee verslag van zijn droom, namelijk het bouwen van een semantisch web. Daarbij werd alle informatie en data die op internet bevond inzichtelijk en bruikbaar gemaakt voor computerprogramma’s. Nu zijn we daar in al een heel eind gevorderd. Dankzij de data standaard xml is het voor veel bedrijven mogelijk geworden om gegevens onderling uit te wisselen. Helaas beschikt niet iedereen over de juiste kennis om zelf xml-documenten te maken. Jarenlang leek het dat alles wat op internet aan gegevens werd gepubliceerd nooit door computers zou te zijn begrijpen. Totdat er halverwege 2004 schot in de zaak begon te komen. Slimme programmeurs hadden een manier ontwikkeld om aan al die eigen publicaties (foto’s, verhalen, rapporten, etc) labels te hangen. Duizenden mensen gingen zich er mee bezig houden en er ontstond een heuse hype: de folksonomy hype (het labelen van gegevens door gewone mensen). Of deze folksonomy het antwoord is voor het bouwen van een semantisch web waar Berners-Lee van droomde, een netwerk waar computers zelfstandig opzoek kunnen gaan naar de juiste informatie, daarover gaat deze paper.

1. De geschiedenis van het indelen

Al eeuwen worstelt men met het indelingsvraagstuk. Het bekendste voorbeeld van een indelingsprobleem is natuurlijk boeken in een bibliotheek. Boeken kunnen maar op één plek te gelijk staan. Boeken moeten dus zo beoordeeld worden, dat ze meer over het één dan over het ander gaan, ze moeten hoe dan ook een leidend onderwerp hebben om op hun plek te kunnen staan. Hoe deze boeken worden ingedeeld hangt bijna net zo af van hun aantal als van hun hoofdonderwerp. Vandaar dat je soms prachtige categorieën krijgt als:

Dewey, 200: Religion
210 Natural theology
220 Bible
230 Christian theology
240 Christian moral & devotional theology
250 Christian orders & local church
260 Christian social theology
270 Christian church history
280 Christian sects & denominations
290 Other religions

(Dewey Decimal System, 1870)

De indeling lijkt aardig overeen te komen met onze gedachtes bij een bibliotheek in de negentiende eeuw. De indeling zou in de huidige tijd moeilijk houdbaar zijn, maar was op het moment dat hij gemaakt werd waarschijnlijk erg praktisch, omdat elke categorie ongeveer een even groot aantal boeken op leverde.

Nu hebben professionele indelers ook geen eenvoudig vak. Ze moeten beschikken over twee erg zeldzame talenten, namelijk het lezen van gedachten en het voorspellen van de toekomst. Beide geen gemakkelijke opgaven.

Gedachten lezen komt van pas op het moment als je de categorisering gaat ontwerpen. Geven de mensen de voorkeur aan boeken die op schrijver staan, of boeken die op onderwerp staan. Staat een boek over Duitse literatuur bij de Duitse boeken, of bij de boeken over literatuur. Kortom wat zijn de meest waarschijnlijke verwachtingen van de gemiddelde mens.

“My mother, who was a reference librarian, said she wanted to reshelve the entire University library by color, because students would come in and say “I’m looking for a sociology book. It’s green…”
(Shirky, 2004)

Een ander moeilijk punt is het voorspellen van de toekomst. Zoals bij het indelings-schema van religies al te zien viel, functioneerde de indeling op het moment van schrijven behoorlijk goed. Maar het zou nu toch voor problemen gaan zorgen, omdat het kaarten bakje onder “290 Other religions” veel sneller zou groeien dan alle andere categorieën. En ook omdat de decimale onder het kopje “200: Religion” geheel gevuld is. Nog een ander sprekend voorbeeld. Als ik mijn collectie Duitse schrijvers netjes had verdeeld op Oost en West Duitse schrijvers, zou ik na de val van de muur helemaal over nieuw kunnen beginnen. Nu valt dit wel te voorkomen door bijvoorbeeld de collectie te hernoemen naar voormalig Oost en West Duitsland. Maar helemaal prettig is het nog steeds niet. Want wat moet ik met mijn nieuwe Duitse boek doen? In een nieuwe categorie Duitsland stoppen, of toch maar op gaan zoeken waar de schrijver woonachtig is of waar de drukkerij staat, of waar de uitgever zijn hoofdkwartier heeft?
Kortom een perfect systeem bestaat niet. Als je eenmaal met indelen begint zul je altijd aan het herindelen blijven.

2. Semantische netwerken

In mei 2001 schreef Tim Berners Lee samen met James Hendler en Ora Lassila een inmiddels bekend geworden artikel “The Semantic Web”. Hierin behandelen ze de vraag hoe de kennis die nu op het web aanwezig is, op zo’n manier inzichtelijk te maken dat computers er ook iets mee kunnen. Hun doel is dat smart agents (software die in hoge maten zijn eigen weg door het web kan bepalen) ons zelfstandig antwoord op onze vragen kunnen geven.

De theorie van deze techniek heeft behoorlijk wat weg van de al eeuwen oude technieken van het structureren van informatie, maar kent enkele eigen kenmerken. Om dit goed te kunnen bespreken ontkom ik er niet aan om een aantal woorden beter uit te leggen.

Helemaal boven in de keten staat het semantische netwerk, dit is het overkoepelende orgaan voor kennis. Dat kan zijn de kennis van een groep mensen, of in dit geval de kennis van een informatie netwerk. Semantische gegevens zijn gegevens die iets zeggen over de kennis die er in een bepaald object beschikbaar is (laten voor het gemak maar zeggen een pagina met tekst). Om die kennis zo goed mogelijk beschikbaar te stellen is er een structuur opgezet van regels, afspraken en definities die het mogelijk maakt om de kennis voor een bepaald domein inzichtelijk te maken.

Deze lijst van regels, afspraken en definities worden ontologieën genoemd. Volgens de Wikipedia is een ontologie “het product van een poging een uitputtend en strikt conceptueel schema te formuleren over een bepaald domein. Een ontologie is typisch een hiërarchische datastructuur die alle relevante entiteiten en hun onderlinge relaties en regels binnen dat domein bevat.”

Het categorieënschema van een ontologie wordt een taxonomie genoemd. Het is de samentrekking van het Griekse woord “taxis” en “nomos”. Taxis betekent classificatie en nomos (nomia) betekent management. Voorbeelden van een taxonomie kunnen dan zijn “taal”, “schrijver” en een iets ruimer “onderwerp”.

Volgens de Wikipedia gaat men bij een taxonomie uit van een groep voorbeeld-objecten die men probeert te verdelen. Vervolgens wordt bekeken wat de karakteristieken van de objecten in een groep zijn en op deze manier krijgt de taxonomie gestalte. Hierbij wordt dus vanuit bijvoorbeeld een stabel documenten een structuur gemaakt gebaseerd op de inhoud van de documenten en het aantal keer dat kenmerken van deze documenten voorkomen. (Zoals het voorbeeld van de indeling van een bibliotheek voor boeken over religie). De afspraken waaraan je een kenmerk herkent, worden samen met de manier van noteren en het totale pakket dus weer een ontologie genoemd.

De vierde stap in deze indelingstheorie is de thesaurus. Dit is een lijst met kenmerken die voorkomt uit de taxonomie. In de lijst kunnen bijvoorbeeld staan: “Jan Wolkers”, “Herman Brusselmans”, “Kees van Beijnum”, etc. Geheel afhankelijk natuurlijk van de regels die in de taxonomie zijn opgelegd aan deze serie. (Bijvoorbeeld belang hechten aan de taal waarin het werk uitkomt, en niet aan het land van afkomst van de schrijver).

Over de thesaurus meldt de Wikipedia dat een thesaurus (uit het Latijn: schatkamer) in de letterkunde een systematische organisatie is van begrippen uit een taal die zo is opgezet dat men eenvoudig een overzicht kan krijgen van woorden die soortgelijke betekenissen hebben. In dit geval hebben de rij met namen voor de taxonomie dezelfde betekenis namelijk schrijver van Nederlandstalige boeken.

En helemaal onderaan de hiërarchie komen dan de beschrijvende woorden zelf zoals “Herman Brusselmans” deze worden tags of keywords genoemd (of in het Nederlands, tref of steekwoorden). Ik zal verder in deze paper het woord tag gebruiken.

Het idee achter het semantische netwerk is dat een smartagent een samenhang tussen verschillende tags kan waarnemen. Hiervoor is het nodig dat verschillende ontologieën op elkaar afgestemd worden. Zo kan er in de ene ontologie gesproken worden van schrijvers, en in de andere van auteurs. Mits er ergens een regel voorkomt schrijver = auteur die aangeeft dat het om synoniemen gaat. Natuurlijk een erg goed idee, maar in de praktijk is er meer informatie dan dat er ooit gecategoriseerd kan worden.

3. Folksonomy

Op dat moment komt folksonomy om de hoek kijken. De term folksonomy is eind 2004 bedacht om een woord te vinden voor grote groepen mensen die objecten labelen. Het is een samentrekking van folk (mensen) en taxonomie. Hoewel er nog enige discussies zijn over de juistheid van het woord, en er zo nu en dan weer oude en nieuwere variaties opduiken (mobtagging, social tagging, social taxonomie, social metatagging), lijkt het er toch op dat de term folksonomy een blijvertje is.

Om te begrijpen waarom folksonomy nu in opkomst is, zal ik eerst een kleine geschiedenisles geven. Begin jaren negentig bedachten de mensen van W3C de metatag. De metatag is een manier om in een document, beschrijvende informatie over dat document te plaatsen. Meta informatie is hierbij informatie over informatie, bijvoorbeeld de schrijver van een tekst of de publiceerdatum. Het idee hier achter was dat informatie sneller en eenvoudiger vindbaar zou zijn. Als ik al mijn documenten zou voorzien van de metatag schrijver = Sjors Timmer, zou het daarna voor mij bijzonder eenvoudig zijn om met zoekprogramma’s alle documenten op te vragen bij wie de naam van de schrijver Sjors Timmer is. Zelfs wanneer ik in de tekst van het document geen enkele keer mijn eigen naam zou gebruiken, blijven mijn documenten nog steeds goed vindbaar.

Maar al snel kwam ook de kwetsbare kant van dit systeem naar boven. Ik besloot om op mijn website kistjes met prachtige appels te gaan verkopen. Maar hoe zeer ik ook lovende teksten schreef over mijn appeltjes niemand bezocht mijn pagina, terwijl ik toch netjes bij de metatags had ingevuld onderwerp = appels. Na enig rondvragen kwam ik er achter dat een andere webwinkel die peren verkocht veel meer bezoekers kreeg. En al snel kwam ik op het valse plan, ik ging mijn metatags aanvullen met peren, onderwerp = appels en peren. En waar ik op hoopte gebeurde, mensen die opzoek waren naar peren vonden mijn pagina over appels, en hoewel ze niet van plan waren om appels met peren te vergelijken. Kregen ze bij het zien van mijn prachtige appelfoto’s zomaar trek in een appeltje, en zie daar, mijn webwinkel werd langzaam een succes.

En zo ging de metatag aan zijn eigen succes ten onder. Bedrijf A vermelde voor het gemak ook maar even concurrent B en C. En al snel stopte zoekmachines met het indexeren van metatags, omdat het mensen eerder tegenwerkte dan hielp bij het zoeken naar de juiste pagina.

“Del.icio.us is a social bookmarks manager. It allows you to easily add sites you like to your personal collection of links, to categorize those sites with keywords, and to share your collection not only between your own browsers and machines, but also with others”
(Schachter, 2004)

Halverwege 2004 werd de bookmarksite Del.icio.us geopend. Deze site maakt het mogelijk om op welke computer je ook bent je bookmark’s te bereiken. Daar was weinig nieuws aan, en niemand zou nu van Del.icio.us gehoord hebben, als ze niet een paar vernieuwende ideeën beschikbaar stelde. Bij het opslaan van de url van een website die je wilde onthouden werd de mogelijkheid geboden om aan de link meerdere tags mee te geven. Zo zou ik dit document bijvoorbeeld de tags “folksonomy”, “semantiek” en “ontologie” mee kunnen geven. Mocht ik me dan later niet meer precies de naam van dit document kunnen herinneren, maar nog wel waar het over ging dan zou ik aan het zoeken naar semantiek in mijn bookmark lijst genoeg hebben. Om het maar even met de aloude bibliotheek te spreken, er wordt mij de mogelijkheid gegeven om mijn boek op drie of vier of net zoveel planken als ik nodig acht te gelijk neer te zetten. Mijn document komt nu zowel tussen de documenten te staan die alleen maar over ontologie gaan, maar ook tussen de documenten die alleen maar over semantiek gaan. Zo word ik in staat om een taxonomie te creëren gebaseerd op mijn eigen eventueel merkwaardige regels (ik zou een document ook “nog te lezen” kunnen taggen). En uiteindelijk zou mijn bookmarklijst tot een ontologie van de door mij verzamelde kennis kunnen uitgroeien.

In tegenstelling tot andere bookmark website’s houdt Del.icio.us mijn tags en mijn links niet alleen voor mijzelf. Maar verzamelt deze samen met alle andere tags en links in een grote database. Op het moment dat ik de muziek website van de VPRO bookmark () kan ik zien dat ik niet de enige ben. Veertien andere mensen hebben deze website ook gebookmarkt. En Del.icio.us toont mij ook, welke woorden er het vaakst gebruikt zijn om deze website te bookmarken, in dit geval negen keer het woord music, en drie keer het woord radio. De conclusie die ik hier voorzichtig uit zou kunnen halen is dat de 3voor12.nl over muziek gaat, en waarschijnlijk iets met radio te doen heeft. Ik zou zelfs kunnen concluderen dat 3voor12.nl voornamelijk op het plankje music terecht hoort te komen, en pas in tweede instantie op het plekje radio. Zo helpen andere mensen mij dus om mijn bookmarks te organiseren en zou de massa dus garant moeten staan voor een zo nauwkeurig mogelijke omschrijving van informatie documenten (in dit geval webpagina’s). Uiteindelijk zou bij dit systeem mijn fraude van appels voor peren verkopen snel door de mand vallen, omdat alle gebruikers behalve ik, mijn site onder appels plaatsen, en alleen ik ook onder peren.

Een ander bekend voorbeeld is de foto website Flickr.com. Op deze website is het mogelijk om je digitale foto’s te plaatsen en deze foto’s weer van tags te voorzien die relevant zijn voor de afbeelding. Het eerste gemak daarvan is dat je foto’s op meerdere manieren kunt bereiken. Foto’s waar ik op sta zouden dan bijvoorbeeld te vinden zijn onder Sjors , maar deze foto’s zouden ook opduiken onder Amsterdam, alleen dan samen met andere foto’s van Amsterdam. Dus als de lijst met foto’s erg lang is, is er toch een snelle manier om de duif er tussen uit te vissen. En ook Flickr.com heeft zijn hele structuur naar buiten gericht, ik kan erg gemakkelijk opzoek gaan naar andere mensen die foto’s maakte van duiven op de dam. En het geeft mij de mogelijkheid om eens te kijken welke afbeeldingen mensen onder het begrip ruimte vinden passen In tegenstelling tot Del.icio.us wordt Flickr niet echt gebruikt om tot een gezamenlijke beschrijving van de aanwezige foto’s te komen (hoewel het wel mogelijk is om andermans foto’s van tags te voorzien) maar biedt het meer een kijkje in andere mensen die een zelfde situatie hebben gefotografeerd. En dat zijn er soms verassend veel. Zo bevond ik mij onlangs op een festival in Paradiso “London Calling” genaamd en tot mijn verbazing waren er enkele dagen later van veel verschillende mensen al enkele honderden foto’s beschikbaar. Foto’s die allemaal hadden vast gelegd wat ik ook had gedaan, maar dan vanuit iets andere posities. Dankzij Flickr.com was het dus mogelijk om na “London Calling” nog even gezellig elkanders foto’s te bekijken, alleen deze keer geen foto’s van vrienden en bekenden, maar van andere toevallige aanwezigen. Flickr werkt dus voor een deel omgekeerd aan Del.icio.us. In plaats van te kijken op welke plankjes andere mensen jouw webpagina hebben liggen, ga je kijken wat andere mensen neer leggen op plankjes die jij voor jouw fotocollectie hebt gekozen.

Een laatste website die onder de bekendheid geniet dankzij de folksonomy hype is de weblog zoekmachine Technorati. In deze zoekmachine kun je op zoek gaan naar bepaalde tags, en wordt er op basis van die tag een pagina gegenereerd met resultaten uit zowel Flickr, Del.icio.us en mensen die in hun weblog bepaalde tags aan links hangen.

Dankzij de het groepsgedrag zou het dus mogelijk moeten zijn om een kloppend semantisch netwerk te maken, waar een iemand de fout in gaan, wordt hij al snel verbeterd door velen andere. Of toch niet?

4. De donkere kant van folksonomy

Bij iedere hype zijn er natuurlijk net zoveel mensen die roepen dat het niet werkt.Een paar van de nadelige kanten zal ik hier bespreken.

De belangrijkste is natuurlijk dat het nooit gaat lukken om alle pagina’s van het web te voorzien van tags. En zelfs al zouden er heel veel webpagina’s een tag krijgen dan nog is het te kort. Het systeem werkt pas echt lekker als meerdere mensen dezelfde pagina dezelfde tag gaan geven, zodat er een gedeelde mening ontstaat. Hoewel je zou kunnen zeggen dat webpagina’s die niet getagd worden, waarschijnlijk ook geen interessante inhoud bevatten.

Een tweede is wellicht dat alleen de meest ruime begrippen overleven. Zoals net voorbij kwam bij de 3voor12 website, was de music tag het populairst. Terwijl deze nu juist niet zo heel veel over de pagina zegt, radio of recensies zou al een veel prettigere tag zijn. Maar omdat deze tags een meer persoonlijke invulling van de webpagina zijn, zullen ze nooit tot de massa tags gaan horen, en komen alleen de meest ruime omschrijvingen bovendrijven.

Een andere is het synoniemen probleem. Een lastige is bijvoorbeeld dat de 3voor12 website zowel de music als de muziek tag heeft. Allebei een letterlijke vertaling van elkaar, maar in dit geval zou muziek een prettigere tag zijn, omdat je dan al enigszins kunt gaan vermoeden dat het een Nederlandse website betreft. Omdat Del.icio.us nu voornamelijk Engelstalige gebruikers kent is er nog niet echt een probleem (of juist wel). Voorlopig zul je met het invoeren van Engelstalige tags het verst komen.

Een andere nadelige kant zou wellicht kunnen zijn dat er synoniemen kunnen voor komen. Er is niemand die daar op checkt en dat zal waarschijnlijk ook niet gaan gebeuren. Het enige wat Del.icio.us en Flickr.com daartegen hebben bedacht is het opnoemen van andere woorden die vaak gebruikt worden in combinatie met de gekozen tag. Een argument hierbij is wellicht dat echte synoniemen maar weinig bestaan, vaak betekenen woorden wel ongeveer het zelfde maar hebben ze toch andere gevoelswaarden of sociale context.

Wat hier veel op lijkt is het probleem met woorden die meerdere betekenissen hebben. Als ik zoek op Washington kan ik veel verschillende resultaten verwachten; de staat, de stad, de president, en wie weet zelfs de acteur. Dit probleem zou op te lossen zijn als mensen ook de moeite namen om hun links niet alleen met Washington te taggen, maar bijvoorbeeld ook met DC of met acteur zo zou ik in een oogopslag mijn gewenste resultaat tussen de zoekresultaten vandaan kunnen halen.

Een laatste is wellicht dat er soms vreemde combinaties ontstaan. Bijvoorbeeld als je bij Technoraty op bepaalde woorden zoekt. Als bijvoorbeeld het woord “Teen” wordt gebruikt, wordt er een pagina geconstrueerd met foto’s van tieners op vakantie, met daarnaast links naar fotosites waarin jonge vrouwen zich blootgeven, niet direct de combinatie die je zou willen.

Conclusie

Voorlopig lijkt het niet mogelijk folksonomy te gebruiken voor het bouwen van een semantisch netwerk. De tags die folksonomy oplevert zijn te algemeen en te versnipperd om er duidelijke conclusies uit te trekken, of relaties in te kunnen leggen. Een voorbeeld die Berners-Lee gebruikte, smartsagents die met behulp van het semantische web, zelfstandig de dichtstbijzijnde dokter voor de juiste behandeling vinden, lijkt voorlopig nog niet realiseerbaar.

Wie gewone mensen (in plaats van professionals) aan het werk zet om informatie te labelen, krijgt labels bedacht door gewone mensen met vergissingen en onduidelijkheden die zich altijd al in de menselijke taal bevonden. Alle duistere kanten van de menselijke samenleving (porno, drugs, racisme etc.) komen in een folksonomy weer vrolijk naar boven.

“100 monkeys typing long enough will not write Shakespeare; nor will a 100 million people randomly forming associations create the semantic web.”
(Powers, 2005)

De voordelen van een folksonomy moeten dan ook meer in de sociale kant gezocht worden. Mensen die nu mee helpen taggen doen dat vooral om te zorgen dat gelijk gestemde hun kunnen bereiken. En gebruiken tags weer om zelf gelijk gestemde te vinden. Misschien zou er in plaats van over folksonomy beter over het ontstaan van “The Social Web” gesproken kunnen worden, mensen, relaties en interesses wereldwijd verbonden.

Voor de toekomst zijn er nog volop kansen voor folksonomy. Het heeft drie sterke kanten, het is goedkoop en het is eenvoudig, en het is populair. Met die eigenschappen zou het niet anders dan een succes kunnen worden, maar op welk vlak dat moet de tijd nog leren.

Bronnen

Berners-Lee, Hendler, Lassila, The Semantic Web
The Semantic Web
2001

Lawely, Social consequences of social tagging
Social consequences of social tagging
2005

Lee, Can social tagging overcome barriers to content classification?
Can social tagging overcome barriers to content classification?
2004

Powers, Cheap eats at the semantic web café,
Cheap eats at the semantic web café
2005

Romeo, Who’s responsible for Technorati’s tag results
Who’s responsible for Technorati’s tag results
2005

Schachter, About Del.icio.us
About Del.icio.us
2004

Shirky, Ontology is Overrated
ontology is overrated
2004