Context

We zijn allen vertrouwd met de wijze waarop we voor ons relevante informatie hopen te vinden op internet. Het paradigma is simpel: na het invoeren van een of meer ogenschijnlijk relevante steekwoorden verwachten we van een zoekmachine een lijst met verwijzingen waarbinnen zich in ieder geval een paar bruikbare pagina’s bevinden. Goed beschouwd is dit vreemd. We communiceren met een systeem in de onbewuste veronderstelling dat het aan de hand van enkele steekwoorden kan bepalen waar we naar op zoek zijn (of waar we het over hebben). Behalve in situaties waarin we terugvallen op krachttermen is het doorgaans in de communicatie tussen mensen niet genoeg om een paar losse woorden te uiten. Wanneer we iemand iets willen uitleggen dan formuleren we daartoe zinnen die gezamenlijk het bedoelde concept bij de ontvanger moeten verduidelijken. Door het aanbrengen van duiding en nuancering in ons verhaal kan de ontvangende partij doelmatiger reageren op wat we zeggen of vragen. In tegenstelling tot bij de zoekmachine verwachten we van de persoon die we bevragen niet dat we meerdere antwoorden krijgen waaruit wij vervolgens zelf de ter zake doende informatie moeten destilleren.

Toch is het zoeken met enkelvoudige begrippen zo gek nog niet. In onze normale communicatie met behulp van natuurlijke taal is veel er op gericht om centrale begrippen te verduidelijken voor de ontvanger. Deze verduidelijking bestaat voor een groot deel uit het aanbrengen van context, d.w.z. we verrijken de centrale begrippen met een beschrijving van de context van gebruik die ons op een bepaald moment voor ogen staat. Wij doen dit onder meer door het begrip te combineren met andere trefwoorden, combinaties die optreden bij een specifieke toepassing. Op een gemeentelijke website kan een combinatie van het woord overlast met de termen geluid of milieu tot andere resultaten leiden dan wanneer we deze term combineren met jongeren of buren. Een goede redactie op het gemeentehuis kan ervoor zorgen dat door het aanbrengen van de juiste contextuele trefwoorden een eindgebruiker toch via een paar termen uitkomt bij het gezochte (en dus het gevoel krijgt ‘begrepen te worden’). Helaas is dit in het huidige tempo van informatieproductie ondoenlijk geworden.

Het aanbrengen van contextinformatie rondom een begrip is zowel waardevol aan de bevraagde zijde (het systeem) als aan de kant van de vrager (de zoekende persoon die de juiste zoektermen tracht te bedenken). Een beproefde en gebruiksvriendelijke aanpak is het op een intuïtieve manier laten zien welke contexten er voorhanden zijn binnen het informatiesysteem. Voorbeelden hiervan zijn bv. het gebruik van ‘topic clouds’ (woordwolken) en het voorstellen van ‘clicks’ voor verfijning. Welke vorm van interactie men ook voorstaat, het succes valt of staat met de beschikbaarheid van contextinformatie. In de computationele taalkunde wordt daarom veel onderzoek gedaan naar methoden om contexten van gebruikte terminologie geautomatiseerd te bepalen.

Next2Know is betrokken bij onderzoek dat wordt gedaan aan de Hochschule Hannover. Doel is onder meer het bepalen van nauwkeurige contexten voor gevonden termen in teksten van diverse aard. Deze contexten worden mede ‘berekend aan de hand van statistisch bepaalde woordafstanden’. Het gaat hier om semantische afstanden, ofwel afstanden in betekenis. De gehanteerde aanpak biedt vele mogelijkheden, waaronder ook het geautomatiseerd vinden van synoniemrelaties en het bepalen van de contexten van een zoekterm binnen een tekst. De methode is zowel bruikbaar voor optimalisaties van zoekvragen als voor de automatische context verrijking van opgeslagen informatie. Een andere interessante – en naar verwachting steeds belangrijker wordende – toepassing is het bepalen van de informatiedichtheid van teksten. Deze toepassing moet o.a. het antwoord geven op de vraag hoe om te gaan met de toenemende berg aan informatie terwijl de kennisomvang nagenoeg constant blijft. In A Mathematical Theory of Communication [Shannon 1948] gaf Claude E. Shannon al vroegtijdig duiding aan dit thema binnen het – toen nieuwe – onderwerp Information Theory. Het belang van deze klassieke paper is niet afgenomen, nieuwe toepassingen van Shannon’s inzichten zijn met moderne taaltechnologie nog dichterbij gekomen. Belangrijk is dat interessante werkende academische halffabrikaten hun weg weten te vinden naar gebruikersoplossingen die voor eenieder te begrijpen zijn. Dit moet zowel voldoening geven aan onderzoekers als aan eindgebruikers. Als we dat met z’n allen weten te bereiken dan hebben we wellicht aan één woord genoeg…

Referenties
[Shannon, 1948] Shannon, C. (1948). A mathematical theory of communication. Bell System Technical Journal, 27:379–423, 623–656.

Een pdf van deze tekst is hier te downloaden.