Nooit meer nadenken
Vandaag was ik op het CLIN, het jaarlijks onderonsje van computationeel linguïsten in Nederland. (Computationele taalkunde, da’s taalkunde met een computer.) Altijd leuk, je steekt er weer wat van op, bijvoorbeeld dat familieportret een anagram is van miltperforatie. Goed om te weten. En, er was nog meer interessants.
Dit jaar viel het me enorm op dat het aantal presentaties die handelden over regelgebaseerde oplossingen, fundamentele taalkundige inzichten en structurele alternatieven vrijwel nul was. Die tendens is al jaren zichtbaar. Ik draai alweer even mee in het vak en stam uit de tijd dat computationeel taalkundigen zich bezighielden met taalkunde, met rekenkundige karakteristieken van taalkundige modellen, met fundamentale vragen over de berekenbaarheid van betekenis. Het vak was formeel georiënteerd, kennis vergaren was een deugd, een minimum aan beschrijvende middelen was de maat der dingen. Als er nieuwe inzichten waren in de zinsbouw, dan moest dat ook vertaald worden naar de computatie. Zelfs pen en papier werden nog gehanteerd. Een steekhoudende regel ontdekken, formuleren of weerleggen – dat was het doel van de wetenschap.
Semantiek, zelfde verhaal. Vandaag hoorde ik iemand beweren dat Aristotelische logica feitelijk de enige empirische vorm van semantiek is. Ga maar na. Nadat je de beweringen ‘alle mensen zijn sterfelijk’ en ‘Socrates is een mens’ hebt gedaan, kun je navragen bij de gemiddelde taalspreker: is het nu noodzakelijk zo dat Socrates sterfelijk is? Ja, zal de meerderheid zeggen, en dat is dus empirische semantiek. (Deze zelfde persoon beweerde dat er op een Vuurland een Kentucky Fried Penguin is, en hij had een biertje in zijn hand, dus ik geef het voor wat het waard is.) Nee, dan de semantiek van vandaag – niets empirisch aan. Vandaag de dag ziet de wereld van de computationele taalkunde er heel anders uit. Het zijn Machine Learning en Bayesian models die de klok slaan. Men neme: een berg data (miljoen zinnen, bijvoorbeeld), een zelf-lerende statistische machine, en stoppe het een in het ander. Roeren, goed schudden. De algoritmes, geleend van economisten, biologische modelleurs en andere statistici – die zijn van belang. Vervolgens komt er een taalmodel uitrollen. Dit taalmodel pas je toe op een andere verzameling data (de test-set) – en je kijkt hoe goed het model is. Bijvoorbeeld: hoe goed het model is in het ontdekken en corrigeren van spelfouten. Hoe goed het model woordbetekenissen voorspelt. Er was zelfs een spreker die een model beschreef dat met 93% precisie voorspelt of een twitteraar aan een autistische-spectrumstoornis lijdt. Kan dat? Ik verzin het niet. Je hoeft er nauwelijks taalkunde voor te leren. Als je maar zelfstandige en bijvoeglijke naamwoorden uit elkaar kunt houden, anders kun je niet uitleggen wat je model doet.
De statistiek verslaat zijn duizenden. Het is niet erg – ik gebruik in mijn werk ook zulke modellen. Deze vorm van taalkunde domineert de industrie – de zoekmachines, classificatiesystemen, en de spamfilters. Deze vorm van taalkunde was twintig jaar geleden eenvoudigweg ondenkbaar. De computers hadden er het geheugen noch de rekenkracht voor.
Ik vraag me alleen wel af, of deze paradigmaverschuiving niet een schaduw is van een fundamenteel andere kijk op de wereld. Bijvoorbeeld: wat werkt, is goed. Of: als het werkt, hoef ik niet te weten hoe het werkt. Of: hoe taal werkt, kunnen we niet begrijpen – dat hoeven we gelukkig ook niet meer te proberen, daar zijn computers voor. Of: als we het niet weten, kunnen we het nog wel simuleren. Wat we niet weten, kunnen we benaderen. De waarheid is onkenbaar; niet erg, zolang we het apparaat maar aan de praat krijgen.
Zijn we nog wel nieuwsgierig naar hoe het werkt? Even pen en papier pakken?