N-gram

In de computationele taalkunde verwijst een n-gram naar een opeenvolging van n items uit een gegeven steekproef tekst of spraak. Deze items kunnen letters, woorden of symbolen zijn. N-grammen worden veel gebruikt in natuurlijke taalverwerking en machinaal leren-toepassingen, waar ze dienen als basis voor modellen die taalkundige context proberen te begrijpen en voorspellen.

Soorten n-grammen

De meest voorkomende vormen van n-grammen zijn:

Unigram
Dit zijn enkele items, zoals enkele woorden in een tekst.
Bigram
Dit bestaat uit opeenvolgende paren van twee items, zoals opeenvolgende woorden in een zin.
Trigram
Hierbij gaat het om opeenvolgende sets van drie items, zoals drie opeenvolgende woorden in een tekst.[1]

Toepassingen

n-grammen zijn van groot belang in verschillende toepassingen:

Machinevertaling
Ze worden gebruikt om de waarschijnlijkheid van bepaalde zinsconstructies in een doeltaal te modelleren.
Tekstvoorspelling
Veel tekstverwerkingsprogramma's maken gebruik van n-grammen om woordsuggesties te doen terwijl een gebruiker typt.
Spraakherkenning
Bij het omzetten van gesproken taal naar tekst, helpen n-grammen om het meest waarschijnlijke woord of de meest waarschijnlijke zinsconstructie te bepalen.
Informatieherstel
In zoekmachines helpen n-grammen bij het bepalen van de relevantie van documenten op basis van de zoekopdracht.[2]

Uitdagingen en overwegingen

Hoewel n-grammen krachtige instrumenten zijn, hebben ze ook beperkingen. Zo houden ze geen rekening met de betekenis van woorden en hebben moeite met het begrijpen van complexe taalconstructies.

In de wereld van taalverwerking blijven n-grammen echter een essentieel concept en een waardevol hulpmiddel voor het begrijpen van taalkundige context en voorspellingen.

Bronnen

  1. Wat zijn n-grammen en hoe implementeer je ze in Python?. Plato gegevensintelligentie (13 september 2021).
  2. (en) N-gram. Engati. Geraadpleegd op 14 oktober 2023.