Dragon, spreek je mijn dialect?

Dialecten zijn een onderdeel van wie we zijn, en in een wereld die steeds mondialer van aard is, kan dat voor velen van ons, een thuis vormen.

Velen vragen zich af hoe we spraakherkenning kunnen trainen om een dergelijke unieke regionale talen te begrijpen?

Nuance spraaktechnologie begrijpt meer dan 80 talen en hun dialecten

Wat is een dialect?

Een lastige vraag om te beantwoorden. In het verleden waren centrale autoriteiten vaak sceptisch tegenover gemeenschappen die beweerde een eigen (regionale) taal te hebben, een voorkeur is om te spreken van louter 'dialect'. Gelukkig wordt taalvariatie vandaag de dag, vaak gezien als een kostbare schat van het cultureel erfgoed.

 

Maar Max Weinreich samenvatting : "een taal is een dialect met een leger en een vloot" is nog steeds geldig. Er bestaat formeel namelijk geen verschil tussen een taal en een dialect. Het verschil tussen standaardtaal en dialecten is dus vooral een statusverschil, dat zich in de loop der jaren heeft ontwikkeld. Om kwesties te vermijden, wordt hier 'dialect' gebruikt op een pragmatische manier, ook al omvat het regionale talen en accenten. 

Verschillende uitspraken van hetzelfde woord

Dragon houdt rekening met dialecten in de diverse taalmodules. Bijvoorbeeld, het Britse Engels taalpakket herkent 52 verschillende uitspraken van het woord "Heathrow", zodat de luchtvaartmaatschappij klanten tegemoet komt aan degenen wier eerste taal niet Engels is.

 

Wanneer de verschillen te groot geworden, creëert Nuance aparte taalmodellen. Gebruikers van Dragon spraakherkenningssoftware kunnen kiezen tussen variaties van het Engels en tussen Vlaams (voor België) en Nederlands (voor Nederland).


Ooit afgevraagd waarom Gronings net zo goed wordt verstaan als Amsterdams?

Af en toe gebeurt dit "onder de motorkap". Zelfs in de Dragon US Engels versie, zijn er verschillende dialect modellen. Ze maakt gebruik van een classifier (een andere toepassing van Machine learning) om te detecteren welke "pakket of model" het beste bij het dialect van de gebruiker past en gebruiken dat voor de herkenning. Een Dragon gebruiker merkt het niet, met het kleine stukje voorlezen wordt het juiste taalmodel gekoppeld aan de stem.

 

Nuance controleert ook of het werkt door de nauwkeurigheid te meten, zoals Dragon Professional Individual Engels heeft een verbetering van (meer dan de vorige versie):

  • 22,5% foutreductie voor sprekers van het Engels met een Latijns-Amerikaans accent,
  • 16,5% voor Zuid (US) dialecten,
  • 13,5% voor Australische Engels,
  • 18,8% voor het Verenigd Koninkrijk Engels,
  • 17,4% voor Indiase Engels,
  • 17,4% voor de Zuidoost-Aziatische sprekers van het Engels.

Verdere ontwikkelingen

Taalkundige verscheidenheid is net zo belangrijk omdat het voor jou belangrijk is; dat is waarom Nuance meer dan 80 talen ondersteunt (waaronder regionale talen, zoals het Catalaans en het Baskisch, die ze heeft ontwikkeld in samenwerking met de regionale overheden), en er zijn nog veel meer variaties en dialecten te ontdekken. 

 

Bij elke nieuwe versie zien we dat de herkenning weer verbeterd is ten opzichte van de vorige versie.

 

Naast linguïstiek is sociolinguïstiek heel belangrijk. Sociolinguïstiek is het gebruik van taal en het effect van en op de samenleving. Een voorbeeld is het Corona-woordenboek, dat hadden we vorig jaar niet kunnen bedenken.

* artikel van Nuance, Nils Lenke