Over Woordcombinaties

Woordcombinaties is een online naslagwerk in ontwikkeling dat geavanceerde leerders en gebruikers van het Nederlands ondersteunt bij het gebruiken van woorden in context. De tool toont hoe woorden gebruikt worden in voorbeeldzinnen, welke woorden typisch en/of vaak met elkaar gecombineerd worden en hoe (valentie)patronen samen met collocaties gebruikt worden voor het bouwen van zinnen.
De applicatie kan voorlopig het beste bekeken worden op een wat groter scherm.

Voor wie?

De doelgroep bestaat in eerste instantie uit neerlandici extra muros en andere gevorderde NT2/NVT-leerders op C-niveau, maar ook voor moedertaalgebruikers is de applicatie nuttig. Denk aan studenten, leerlingen en leraren, taalkundigen, tekstschrijvers, vertalers, iedereen die schrijft.

Welke woordenschat?

Voorlopig kan er alleen gezocht worden op verba (werkwoorden) en substantieven (zelfstandige naamwoorden) uit de lemmalijst. Voor de pilotfase gebruikten we een werkwoordenlijst uit de taalleerapplicatie Hogeschooltaal. Deze lijst hebben we na de pilot uitgebreid met ver uit de Basislijst Schooltaalwoorden vmbo (Alons & Scheltinga, 2015). We maakten een doorsnede van de schooltaalwoorden en de werkwoorden uit het Nederlandse frequentiewoordenboek A frequency dictionary of Dutch (Tiberius & Schoonheim, 2013). Die woorden worden met voorrang bewerkt. Na de schooltaalwoorden behandelen we de overige verba en substantieven uit het frequentiewoordenboek.

Wat is een combinatie?

Eigenlijk iedere betekenisvolle combinatie van woorden met spaties:

  • een collocatie: frequente en/of conventionele combinatie van woorden
    bondig, helder, exact, expliciet, nauwkeurig formuleren
  • een uitdrukking: vaste combinatie, vaak met een figuurlijke betekenis
    geen kaas hebben gegeten van ... : geen verstand hebben van ...
  • een spreekwoord: kernachtige zin met een erkende waarheid of levenswijsheid
    niet geschoten is altijd mis: je kunt het proberen, een nee of mislukking heb je altijd al
  • een formule: routineachtige uitdrukking die in bepaalde situaties of voor bepaalde taalhandelingen gebruikt kan worden
    van harte gefeliciteerd met je verjaardag!
  • een (zins)patroon: een (zins)structuur met een betekenis
    Iemand adviseert (iemand) om te … : iemand raadt (iemand) aan om te ...

Het taalmateriaal

Woordcombinaties is corpusgebaseerd en gebruikt hedendaags taalmateriaal dat voornamelijk afkomstig is uit kranten (NRC en De Standaard). Het corpus bevat hiermee teksten uit Nederland en Vlaanderen en bestaat uit iets meer dan 230 miljoen woorden. Corpusgebaseerde woordenboeken reflecteren hun corpus, waardoor je dan ook vooral kunt zien hoe woorden gebruikt worden in geschreven standaardtaal in kranten.

De zoekopties

Er zijn drie zoekopties die in tabbladen geordend zijn van eenvoudig naar complex:

  • Voorbeeldzinnen: bekijk het trefwoord in representatieve voorbeeldzinnen.
  • Combinatiemogelijkheden: met welke andere woorden of woordgroepen wordt het trefwoord gecombineerd?
  • Patronen: hoe bouw je zinnen met het trefwoord?

Voor de zoekopties 'voorbeeldzinnen' en 'combinatiemogelijkheden' zijn de trefwoorden in de lemmalijst soms opgesplitst in meer lemma's. Dat is onder meer het geval als de woorden waarmee het zoekwoord gecombineerd wordt bij erg uiteenlopende betekenissen van het trefwoord horen, zoals een bericht bevestigen bij bevestigen (affirmeren) vs. een camera bevestigen bij bevestigen (vastmaken). Ook hebben verba vaak een apart lemma voor intransitief en transitief gebruik of voor reflexief en niet-reflexief gebruik. Deze gebruikswijzen gaan niet alleen gepaard met betekenisverschillen, maar ook met andere kenmerken, bijvoorbeeld een ander hulpwerkwoord van tijd: het glas is gebroken (kapotgegegaan) vs. hij heeft het glas gebroken (kapotgemaakt). In de zoekoptie 'Patronen' hebben alle verba maar een lemma. De woorden waarmee het zoekwoord typisch gecombineerd wordt in een bepaalde betekenis, worden daar per patroon gegeven. Ook de kenmerken transitief/intransitief en reflexief/niet-reflexief blijken uit ieder individueel patroon, bijvoorbeeld iemand biedt iets aan (transitief) vs. iets biedt zich aan (reflexief).

Voorbeeldzinnen

Vaak heb je aan een aantal goede voorbeeldzinnen met het zoekwoord al genoeg om te achterhalen wat het woord betekent en hoe het gebruikt wordt. Goede voorbeeldzinnen moeten betekenis en gebruik van het zoekwoord illustreren, maar mogen voor de leesbaarheid ook weer niet te lang zijn. Voor het sorteren van goede zinnen in het corpus gebruiken we GDEX (Good Dictionary Examples), een technologie die binnen de corpusapplicatie Sketch Engine van Lexical Computing ontwikkeld is.

Uit de gesorteerde zinnen in het corpus worden vervolgens een aantal zinnen geselecteerd voor de applicatie Woordcombinaties. Zinnen worden overgenomen zoals ze in het corpus voorkomen en zo weinig mogelijk nabewerkt. Alleen pertinente fouten worden gecorrigeerd en bij uitzondering worden te lange zinnen wat ingekort. In Woordcombinaties gaat het vooral om combinatiemogelijkheden en om de constructies waarin het zoekwoord voorkomt. In veel voorbeeldzinnen kun je woorden tegenkomen die naar iets verwijzen (bv. dat, daarom, zo, …). Bv. daarom in

Ik denk wel eens dat hij daarom zo hard werkt.

Enerzijds is het voor het herkennen en gebruiken van de constructie niet altijd relevant om te weten waarnaar deze woorden precies verwijzen. Anderzijds zijn verwijswoorden voor een aantal constructies wel typisch, bv. er…aan in

Ik heb er zelfs serieus aan gedacht om een dokter te bellen.

Verba kunnen soms geadjectiveerd of gesubstantiveerd zijn. Voorbeelden:

Het publiceren van een artikel is moeilijk. het publiceren = infinitief van het verbum gebruikt als substantief.

Hij ligt begraven in de kerk. begraven = deelwoord van het verbum gebruikt als adjectief.

Combinatiemogelijkheden

Hier is te zien met welke andere woorden of woordgroepen het zoekwoord gecombineerd wordt. Het verbum adviseren, bijvoorbeeld, wordt vaak gecombineerd met personen en instanties als subject: advocaat, ambtenaar, arts, bank, bedrijf, bureau, college, commissie, deskundige, expert, enz. Het werkwoord stimuleren neemt als object graag woorden als consumptie, creativiteit, debat, economie, export, enz. In veel gevallen berust de combineerbaarheid van woorden op afspraken binnen de taalgemeenschap. We zeggen dan dat de combinatie geconventionaliseerd is. Een voorbeeld daarvan is de combinatie zich kostelijk amuseren. Die kan in het Engels niet letterlijk vertaald worden als to amuse oneself preciously, maar wordt vertaald met een (net zo geconventionaliseerde) uitdrukking to have a great/wonderful time. De woorden of woordgroepen die vaak of volgens conventie gecombineerd worden met het zoekwoord, noemen we collocaten.

Collocaten worden met de corpusapplicatie Sketch Engine opgespoord en zichtbaar gemaakt in zogenaamde woordschetsen. We halen de belangrijkste collocaten daaruit over en brengen waar nodig correcties aan.

We wijzen erop dat de hier vermelde combinatiemogelijkheden zeker niet de enige mogelijkheden zijn. Hier wordt alleen een profiel van het zoekwoord geschetst, zoals het in ons (kranten)materiaal is aangetroffen.

Collocaten worden gegroepeerd per zinsdeel (deel van een zin met een functie, zoals subject of object). Als je op een woord uit de lijst klikt, zie je een voorbeeldzin met de combinatie (verbum + collocaat). Bijvoorbeeld:

Zinsdelen die bijzin zijn, worden geordend op inleidend woord. De bijzinnen kunnen verschillende functies vervullen (subject, object, bepaling, enz.). Bijvoorbeeld:

Daarnaast is er nog de en/of-relatie, waarin we andere zelfstandige woorden noemen die vaak samen met het zoekwoord voorkomen, bv. adviseren en/of begeleiden, controleren en ondersteunen.

Patronen

Kennis over de combineerbaarheid van woorden alleen is niet altijd genoeg. Met de zoekoptie ‘patronen’ kun je voor de verba zien hoe je hele zinnen kunt maken met de combinaties in een bepaalde betekenis. Voorbeeld:

Ieder hoofdpatroon heeft een eigen betekenis. Patronen bestaan uit gekleurde slots (de zinsdelen) met dummies (bv. iemand, iets, ergens). In de slots kunnen we in veel gevallen typische collocaten invullen die bij de betekenis van het patroon horen, bijvoorbeeld advocaat, arts, commissie als subjecten bij adviseren. Deze collocaten kunnen op hun beurt weer gegroepeerd worden in semantische types, bijvoorbeeld human, institution, ... . Mouseover over slots toont de syntactische functie en het semantisch type. Slots die naast semantische types ook collocaten bevatten zijn gemarkeerd door een kadertje met stippellijn. Een muisklik op een omkaderd slot toont de collocaten met een voorbeeldzin.

Voor het toekennen van semantische types gebruiken we een ontologie die oorspronkelijk door Patrick Hanks ontwikkeld werd voor het Engelse patroonwoordenboek Pattern Dictionary of English Verbs (PDEV) en verder ontwikkeld en aangepast werd voor het Italiaanse patroonwoordenboek T-PAS.

Patronen worden in een corpussample opgespoord en geannoteerd door gebruik te maken van Corpus Pattern Analysis (CPA), een techniek die eveneens ontwikkeld is door Patrick Hanks.
Een hoofdpatroon kan subpatronen hebben, bijvoorbeeld patronen met bijzinnen in plaats van naamwoordgroepen als zinsdeel en bijzondere patronen, zoals uitdrukkingen, spreekwoorden of formules. De gebruiker kan per werkwoord zelf instellen welk type patroon hij wil zien. Het annoteren en bewerken van patronen is bewerkelijk. Het aantal volledig bewerkte werkwoorden zal daarom geleidelijk toenemen.

Bijzondere patronen: uitdrukkingen, spreekwoorden en formules

Uitdrukkingen zijn min of meer vaste patronen, vaak met een figuurlijke betekenis. Bijvoorbeeld: de strijdbijl begraven = vrede sluiten. Spreekwoorden zijn kernachtige zinnen met een erkende waarheid of levenswijsheid. Bijvoorbeeld: niet geschoten is altijd mis. Formules zijn routineachtige zinnetjes die vaak in bepaalde situaties en/of bij bepaalde taalhandelingen gebruikt worden. Voor taalleerders zijn deze vaak lastig te produceren. Bijvoorbeeld:

taalhandeling: zekerheid uitdrukken
formules bij die taalhandeling:

daar twijfel ik niet aan
daaraan valt niet te twijfelen
daar hoef je niet aan te twijfelen

Suggesties voor oefeningen en toetsen

In dit document staan suggesties voor oefeningen en toetsen.

Literatuur

Alons, L. & Scheltinga, F. (2015). Basislijst Schooltaalwoorden vmbo. iTTA Universiteit van Amsterdam.

Colman, L. & Tiberius, C. (2018). A good match: a Dutch collocation, idiom and pattern dictionary combined. Proceedings of the XVIII EURALEX International Congress, pp. 233-246.

Hanks, P. (2004). Corpus pattern analysis. Proceedings of the XI EURALEX International Congress, pp. 87-98.

Kilgarriff, A., Husák, M., McAdam, K., Rundell, M. & Rychlý, P. (2008). GDEX: Automatically finding good dictionary examples in a corpus. Proceedings of the XIII EURALEX International Congress, pp. 425-432.

Jezek E. et al. (2020). T-PAS System of Semantic Types, version 2.0, Project Deliverable, University of Pavia.

Jezek, E., Marini, C. & Romani, E. (2020). T-PAS Guide to Semantic Types, version 2.0, Project Deliverable, University of Pavia

Tiberius, C., & Schoonheim, T. (2013). A frequency dictionary of dutch: core vocabulary for learners. Routledge.

De makers van Woordcombinaties

Redactie

Lut Colman (projectleider/eindredacteur: lut.colman@ivdnt.org)
Sam Boekholt (stagiair/werkstudent 2020)
Ami Okabe (stagiaire/werkstudente 2020)
Sophia Nauta (stagiaire 2020)
Rob Tempelaars (deeltaak substantiefdefinities 2021)
Wil de Ruyter-Balt (taalkundig-assistent tot 2021)
Esther Simons (werkstudente 2022)
Mila van Nieuwenhuizen (stagiaire/werkstudente 2022, 2023)

Didactisch materiaal

Welmoed Cnossen (docent, vrijwilliger)

Technische ondersteuning

Carole Tiberius (computerlinguïst)
Vincent Vandeghinste (computerlinguïst)
Jan Niestadt (software-engineer)
Ruud de Jong (software-engineer)