Intreerede: Informatie aangepast aan de gebruiker

Robots, spiders and index-databases

Vóór de komst van snelle netwerken bestonden informatiebronnen veelal uit databases van teksten en specifiek hiervoor ontwikkelde zoekprogramma's. In vele gevallen werden opzoekingen niet door de domein-expert uitgevoerd, maar door informatici, die complexe cryptische syntaxen konden beheersen, en de betekenis van Booleaanse logische expressies konden doorgronden.

Het onderzoeks- en ontwikkelingsgebied van de information retrieval evolueerde bijna tot een tak van sport, met de TREC wedstrijd als hoogtepunt. De vele deelnemers aan deze wedstrijden kunnen ruwweg worden onderverdeeld in twee kampen:

Sommige onderzoekers waren en zijn van mening dat de beste zoekresultaten kunnen verkregen worden wanneer de zoekmachine de natuurlijke taal kan begrijpen.
Een aantal anderen gaan echter uit van statistische analyses van woordgebruik, zonder de taal te hoeven begrijpen, en zonder te weten welke woorden werkwoorden, zelfstandige naamwoorden, bijwoorden, of nog iets anders zijn.

Het klinkt misschien ongelooflijk, maar tot nu toe zijn de methoden die gebruik maken van natuurlijke taalanalyse nog niet in staat gebleken betere zoekresultaten op te leveren dan de methoden die maar wat goochelen met frequenties van woordgebruik.

De uitvinding van de CD-ROM heeft het mogelijk gemaakt grote databases met teksten en multimedia informatie tot op elke werkplek en tot in de huiskamer te brengen. Het zilveren schijfje, door Philips ontwikkeld om een uurtje muziek te kunnen afspelen, kan meer tekst bevatten dan een mens in één maand tijd kan lezen, en ook meer tekst dan vele mainframe computers van slechts enkele jaren geleden konden opslaan en verwerken. De grootste uitdaging van de CD-ROM is echter niet de techniek van de data opslag en het opvragen van informatie. De CD-ROM op de werkplek en in de huiskamer betekent dat de domein-expert, de eindgebruiker en zelfs Jan met de PC in staat moeten zijn om in een grote tekst-database informatie op te zoeken zonder alles te moeten lezen.

Het gebruik van zoekmachines door eindgebruikers heeft de wereld van de information retrieval grondig door elkaar geschud. Het onderzoeksveld had zich altijd geconcentreerd op technieken om nauwkeurig gestelde vragen zo goed mogelijk te beantwoorden door relevante documenten te selecteren. Het was daarbij niet belangrijk dat vragen op een eenvoudige wijze konden worden gesteld. Om voor eindgebruikers geschikt te zijn moesten nieuwe methoden worden bedacht om vragen op een intuïtieve wijze te stellen, bijvoorbeeld door alleen maar een paar kernwoorden te geven. In de information retrieval is men inmiddels zover gevorderd dat een goede selectie van relevante documenten mogelijk is wanneer de gebruiker ongeveer 20 kernwoorden geeft, waarvan de meeste, maar niet noodzakelijk alle woorden in de gevonden documenten voorkomen.

De komst van Internet, en meer specifiek van World Wide Web, heeft andermaal een revolutie veroorzaakt in de information retrieval. Daar waar de informatie op een CD-ROM gemakkelijk te benaderen is, en geconcentreerd in één database, zijn de documenten in World Wide Web over de hele wereld verspreid, niet gecatalogiseerd, en ook nog eens moeilijk bereikbaar door de onbetrouwbare werking van vele computers die de informatie bevatten en door de zeer wisselende snelheid en betrouwbaarheid van Internet.

World Wide Web bestaat uit een zeer groot aantal documenten, meestal teksten en illustraties, die met elkaar verbonden zijn door middel van hypertekst links. Die links zijn aktieve verwijzingen tussen documenten. Ze kunnen het best vergeleken worden met een literatuurverwijzing, maar dan zo dat wanneer je met behulp van de computermuis de link aanklikt de verwijzing wordt gevolgd en het betreffende artikel op het scherm verschijnt, ook al staat dit op een computer aan het andere eind van de wereld. Dit hypertekst mechanisme is de grote kracht van World Wide Web, maar tegelijk ook de belangrijkste zwakte:

Een document op het Web kan worden opgevraagd door in een WWW-browser het adres van dat document in te typen. Documenten waarvan men het adres niet kent zijn uitsluitend te benaderen door het volgen van hypertekst links vanuit documenten die wél bekend zijn of die eerder werden gevonden. Vanuit een bekend vertrekpunt is wellicht niet elk document op het Web te bereiken door een (onbeperkt groot aantal) links te volgen. De volgende figuur illustreert dit probleem (start links bovenaan):
Nadat alle links die men kan vinden gevolgd zijn blijven er twee knopen in de graaf over die niet bereikt kunnen worden.
Al zouden alle documenten op het Web wél met elkaar verbonden zijn, dan nog is het Web als architectuur om informatie te vinden niet geschikt omdat de snelheid van het netwerk onvoldoende is om in korte tijd alle documenten op te vragen. Alleen al de teksten op het Web worden geschat op ongeveer 100 Gigabyte. Als het netwerk helemaal ter beschikking zou staan van één enkele gebruiker dan zou het nog minstens een week duren om alle informatie te verzamelen en te doorzoeken. Bovendien zijn vele informatiebronnen vaak niet beschikbaar omdat computers of netwerken tijdelijk buiten gebruik zijn, of zo zwaar overbelast dat het wel lijkt alsof ze helemaal niet werken. Als een gebruiker thuis met een telefoon-modem het Web probeert af te zoeken dan duurt het niet een week maar minstens een heel jaar.

Uit het voorgaande zal duidelijk zijn dat het "eventjes" doorzoeken van het Web niet mogelijk is. Om in het hele Web op zoek te gaan naar bepaalde informatie moeten de documenten op voorhand op één plaats, of op een klein aantal plaatsen worden verzameld. De technologie die hiervoor ontwikkeld wordt bestaat uit robots of spiders. Een robot of spider is een computerprogramma dat automatisch Web-pagina's ophaalt voor "lokale" verwerking. Hij doet dit op dezelfde wijze als een menselijke gebruiker: door de links te volgen die in de Web-pagina's voorkomen. De robot doet dit natuurlijk veel sneller dan een mens, en op één enkele computer kunnen gemakkelijk 10 of meer robots tegelijk aan het werk gaan, om nog sneller het hele Web af te zoeken.

De documenten van het Web, verzameld door een robot, kunnen helaas niet zomaar letterlijk op de harde schijf van een computer of op een stel CD-ROMs worden opgeslagen. Met zijn circa 100 Gigabyte is het Web hiervoor veel te groot, en dit is alleen nog maar de tekstuele informatie, dus zonder de illustraties, video's en geluidsfragmenten. De informatie wordt opgeslagen in zogenaamde index-databases, die de informatie niet alleen veel compacter opslaan, maar ze ook veel efficiënter kunnen doorzoeken.

Voor de eindgebruiker is het begrip "index-database" niet zo interessant. De database wordt gebruikt om informatie te vinden in de vorm van relevante Web-pagina's. Daarom gebruikt men meer de al eerder genoemde term zoekmachine dan "index-database". Hoewel de zoekmachines voor het Web in principe hetzelfde werk doen als de oudste tekst-databases uit de information-retrieval wereld hebben ze het op een aantal punten veel moeilijker:

De hoeveelheid informatie die beschikbaar is op het Web komt overeen met ongeveer 1500 CD-ROMs. Gelukkig betekent dit niet dat de computer met een zoekmachine voor het Web 1500 keer sneller moet zijn dan een zoekmachine voor een CD-ROM. Goede zoek-methoden hebben vaak een logaritmisch gedrag. Als men met de snelheid van het zoeken naar informatie op een CD-ROM tevreden is, dan zal men ook tevreden zijn met een zoekmachine voor het 100 Gigabyte grote Web, als die op een computer draait die 40 keer sneller is.
Een nog moeilijker probleem is de gewenste selectiviteit van een zoekmachine. Het Web bevat niet alleen 100 Gigabyte aan informatie, die informatie is verspreid over ongeveer 100 miljoen afzonderlijke documenten. Als een zoekmachine in staat is om uit elke 10.000 documenten die ene pagina te selecteren die voldoende goed beantwoordt aan de vraag van de gebruiker, dan levert dit voor een CD-ROM met 70.000 pagina's welgeteld 7 pagina's op, een schitterend resultaat. Dezelfde selectiviteit levert voor het Web een antwoord op van 10.000 pagina's, wat een nog volstrekt onbruikbaar groot aantal is. Hier helpt geen logaritmische factor; een zoekmachine voor het Web moet ruwweg 1000 maal beter in staat zijn om relevante documenten te onderscheiden van niet-relevante documenten.
De uitdaging voor zoekmachines wordt nog vergroot door het brede spectrum van onderwerpen waarover documenten op het Web te vinden zijn, en dit in vele verschillende talen. Alle documenten over een onderwerp vinden is niet mogelijk zonder een grondige talenkennis. Ook moet de zoekmachine uit de context kunnen afleiden welke betekenis een multi-interpretabel woord heeft. Wanneer bijvoorbeeld een project op de rails wordt gezet dan heeft dit nog niets met spoorwegen te maken, en ook niet met gordijnen. De natuurlijke taal barst van de woorden met verschillende betekenissen, die het een zoekmachine moeilijk maken om relevante documenten te selecteren.
Alsof het probleem nog niet groot genoeg is geeft de typische Web-gebruiker de zoekmachine nog een extra uitdaging: in plaats van de twintig woorden die nodig zijn om de relevantie van documenten goed te kunnen inschatten bestaan de meeste vragen aan zoekmachines uit niet meer dan twee woorden.

De ontwikkelaars van grote zoekmachines zoals Alta Vista en Excite sparen kosten noch moeite om bruikbare antwoorden te produceren voor zoveel mogelijk gestelde zoekvragen. Er zijn vele succesverhalen van gebruikers die in enkele minuten tijd waardevolle informatie hebben gevonden waarvan ze het bestaan niet eens kenden. Maar er zijn nog veel meer verhalen van gebruikers die tevergeefs naar specifieke informatie hebben gezocht waarvan ze zeker wisten dat ze op Internet aanwezig moest zijn. De zoekmachines geven wel altijd een groot aantal antwoorden, maar dikwijls bevat geen van de aangewezen documenten de gevraagde inhoud.

De meeste zoekmachines gaan voorbij aan de belangrijkste eigenschap die de hypertekst-technologie heeft toegevoegd aan de tekst-databases van vroeger: de aanwezigheid van links tussen documenten. Auteurs van documenten brengen links aan naar andere informatie, van henzelf of van anderen, omdat ze menen dat er een verband is tussen de pagina's die ze met elkaar verbinden. Deze verbanden kunnen worden gebruikt om nog beter te bepalen wat het onderwerp van een document is. Maar deze links kunnen nog voor iets heel anders worden gebruikt: om met beperkte middelen een robot in korte tijd pagina's te laten vinden over een onderwerp waarover men reeds enkele pagina's gevonden heeft. Deze methode wordt gebruikt door de Fish-Search robot [DBP94a,DBP94b,DBHKP94], die de motor is van het FishNet hulpmiddel [DBL97] voor Webpagina onderhoud.

Op het Web zijn veel "professionele" home pagina's te vinden, die grote aantallen links bevatten naar documenten over één bepaald onderwerp. Over zo'n onderwerp zijn er vaak verschillende dergelijke pagina's, die ook naar elkaar verwijzen.

Een typisch voorbeeld is de Adaptive Hypertext and Hypermedia home pagina. Deze pagina bevat verwijzingen naar de meeste onderzoekers die op dit gebied werkzaam zijn, naar conferenties en workshops, naar onderzoeksprojecten, en naar tijdschriften en on-line publicaties.

Nieuwe documenten over dat onderwerp zijn gemakkelijk te bereiken door vanaf die professionele home pagina's links te volgen. De Fish-Search robot is precies bedoeld om vanuit zo'n home pagina gedurende een korte tijd op zoek te gaan naar nieuwe documenten over het onderwerp van de home pagina. Het FishNet tool gebruikt de Fish-Search om 's nachts nieuwe documenten op te zoeken en ter evaluatie aan de gebruiker voor te leggen. Wanneer er op het Web 100 pagina's staan over een zeer specialistisch onderwerp, dan lijkt het statistisch zeer onwaarschijnlijk dat een robot een pagina over dit onderwerp zou tegenkomen, als hij slechts een beperkte tijd heeft en dus ten hoogste een duizendtal pagina's kan bekijken. De praktijk toont echter dat wanneer eenmaal een relevante pagina is gevonden, een robot als de Fish-Search in zeer korte tijd de meeste andere pagina's over dat onderwerp wel degelijk kan vinden. De wijze waarop hypertekst links in het Web gebruikt worden toont aan dat de verdeling van documenten en onderwerpen in het geheel niet willekeurig is.