Reportage
Computational Linguistics in Leiden
Aan de faculteit worden jaarlijks heel wat congressen georganiseerd.
17 december 2004 ontmoetten zo’n honderd computertaalkundigen elkaar in
het Lipsius-gebouw voor de eendaagse conferentie Computational
Linguistics in the Netherlands. Forum (F) sprak met twee van de
organisatoren, dr. Crit Cremers van Taalwetenschap (C) en dr. Ton van
der Wouden van Nederlands (W).
Foto (rechts):
Keynote-speaker prof. Dr. Luc Steels van de Vrije
Universiteit Brussel en het onderzoekslab van Sony in
Parijs, die vertelde over experimenten met robots die
met elkaar moeten leren "praten".
|
 |
Misschien mogen we beginnen met een domme vraag: wat is eigenlijk
computertaalkunde?
C: Dat is helemaal geen domme vraag: computertaalkunde, of in het
Engels computational linguistics, is een verzamelterm voor alle soorten
taalkunde waarbij het gebruik van de computer verder gaat dan gewone
kantoortoepassingen zoals tekstverwerken en een simpele database.
W: Dus dat kan bijvoorbeeld inhouden het bouwen van een programma dat
het menselijk taalvermogen modelleert, zoals Delilah van collega
Cremers: dat programma is redelijk goed in het ontleden van Nederlandse
zinnen, en daar een betekenis aan toekennen.
C: En het achterliggende doel is natuurlijk, zoals bij alle
taalkundig onderzoek, te begrijpen hoe het menselijke taalvermogen
werkt. We hebben nog maar nauwelijks een idee hoe kindertjes er in
slagen zo snel hun moedertaal in zoverre meester te worden dat ze die
taal kunnen gebruiken om hun gevoelens te uiten, hun wensen vervuld te
krijgen, en ga zo maar door. Een werkend model kan je iets leren over
dat taalvermogen. En als je merkt dat je model zich anders gedraagt dan
je voorbeeld, de mens, dan weet je dat je model nog niet helemaal goed
is. Eigenlijk precies zoals ook vakken als natuurkunde en econometrie
met modellen werken.
Collega Van der Wouden gebruikt de computer weer voor heel andere
dingen: hij zoekt, onder meer met subtiele statistische technieken, in
hele grote bestanden naar specifieke stukjes taal. Er zijn al heel wat
dikke grammatica’s geschreven, maar van veel taalfenomenen begrijpen we
nog heel weinig. En bovendien: over het algemeen zijn de beschrijvingen
in grammatica’s die voor menselijke gebruikers bedoeld zijn niet precies
genoeg, zeker niet om ze zomaar om te zetten in een computerprogramma.
W: De ultieme toepassing is natuurlijk de vertaalcomputer. Die
bestaat weliswaar niet, en zolang we niet weten wat een goede vertaling
is, zal die er ook niet komen, maar het concept geeft een redelijk beeld
van de complexiteit van het vak. Om een tekst goed van het Engels in het
Nederlands te kunnen vertalen moet de computer de Engelse grammatica
kennen om de brontekst te kunnen interpreteren, betekenis aan Engelse
zinnen kunnen toekennen, kennis van de wereld bezitten om mogelijke maar
onwaarschijnlijke betekenissen uit te sluiten, en de Nederlandse
grammatica kennen om de betekenis te kunnen omzetten in goede
Nederlandse tekst. Nou, in al de genoemde onderdelen valt nog heel wat
te doen.
En hoe gaat het met de computertaalkunde aan de Leidse universiteit?
W: Traditioneel is het vak niet groot hier, als je het vergelijkt met
wat er aan andere universiteiten gebeurt. Maar er zit groei in: we
hebben op dit moment een stuk of vier door NWO gefinancierde AIO’s.
C: En jouw VIDI-project “Dutch as a construction language”
natuurlijk.
Computational Linguistics in the Netherlands, dat klinkt tamelijk
provinciaal.
W: Zo is het ook begonnen, natuurlijk. Als ik even mag opscheppen: ik
was erbij, toen een aantal Nederlandse computertaalkundigen eind jaren
’80 in de wandelgangen van een congres in de VS tegen elkaar zeiden dat
het toch gek was dat ze elkaar wel op buitenlandse conferenties
tegenkwamen, maar dat er in Nederland geen forum voor ze was. In ’90
hebben we toen de eerste CLIN georganiseerd, in Utrecht.
C: Kennelijk voorzag de conferentie in een behoefte, want vanaf toen
was er ieder jaar een bijeenkomst. En al na een paar jaar kwamen de
eerste buitenlandse sprekers, en dit jaar hadden we zo’n 100 deelnemers,
en bijna 70 abstracts afkomstig van maar liefst 4 continenten. Dus die
vlag CLIN dekt de lading allang niet meer. Maar denk maar niet dat we
die naam gaan veranderen – we zijn immers geen verzekeringsmaatschappij.
Kun je zoveel sprekers allemaal kwijt op één dag, of pas je selectie
toe?
W: Nee, we konden ze niet allemaal kwijt, ook al hadden we 4
parallelsessies. Maar we hebben anderzijds ook niet grof willen
selecteren: CLIN is traditioneel een laagdrempelige conferentie, en dat
wilden we graag zo houden. Dus hebben we een aantal inzenders gevraagd
een abstract te presenteren in plaats van een lezing te houden. En in
het algemeen heeft men dat zonder morren geaccepteerd.
Kun je rijk worden in de computertaalkunde?
W: Er gaat vrij veel geld om in het vak – automatisch vertalen,
vraag-antwoord-systemen en automatisch samenvatten zijn bijvoorbeeld
“big business”. Sommige van de grote computertaalkundecongressen zijn
dan ook veel duurder dan de congressen in andere onderdelen van de
taalwetenschap die we bezocht hebben, zo duur dat ze voor de eenvoudige
academische onderzoeker onbereikbaar worden.
C: Maar omdat er veel geld in het vak omgaat, kun je, verondersteld
natuurlijk dat je goed bent, als computertaalkundige een hele goede
boterham verdienen bij bedrijven als Google of Microsoft. Maar u
begrijpt dat wij het zelf niet voor het geld doen, maar omdat we denken
dat de computer wegen tot kennis opent die voor anderen gesloten
blijven.
En de conferentie, was die een succes?
C: We hebben alleen tevreden reacties gekregen, en ook wij hebben
geen enkele reden tot klagen.
W: Of toch wel: sommige collega’s bleken niet te kunnen komen omdat
ze geen visum kregen. Achteraf bleek dit een bekend probleem:
Buitenlandse Zaken kan buitengewoon lastig doen, met name als het gaat
om wetenschappers uit Noordafrikaanse landen. Voor collega’s die een
internationaal congres gaan organiseren is het raadzaam vroeg contact op
te nemen met Marlies van den Bos-van Sambeek van het bureau van de
Universiteit, die kent het klappen van de zweep.
En nu?
C: En nu gaan we fijn nog een congresbundel samenstellen, en eind dit
jaar zien we de collega’s weer, dit keer in Amsterdam.
|