Hoe werkt spraakherkenning?

‘Hoe je werkt met spraakherkenning?’ is een ander verhaal dan ‘Hoe werkt spraakherkenning?’

Hier wordt eenvoudig uitgelegd wat de techniek van spraakherkenning is.

Hoe je werkt met spraakherkenning, kun je lezen in de handleidingen, of bij het volgen van een training en bij het zien YouTube video’s van Cedere.

Maar dat zegt niet zoveel over de werking. Hoe spraakherkenning werkt is vaak het begin van hoe werk je met spraakherkenning.

Hoe werkt spraakherkenning?

Zodra je begint met spraakherkenning lees je een stukje tekst voor en de software bepaalt welke starttemplate (voorbeeldgebruiker) gebruikt gaat worden. Dat doet zij door de stem te analyseren op trillingen en spacing: hoe de stem klinkt. Vanaf dat moment gebruik je de herkenbaarheid van een persoon die ooit een spraakprofiel heeft gemaakt als voorbeeld gebruiker.

Heb je een accent dan wordt daar de juiste voorbeeldpersoon bij gezocht, zodat je start met een zo’n hoog mogelijke herkenbaarheid. Vanaf dat moment voeg je je eigen woorden en spraakopdrachten toe zodat de herkenbaarheid omhoog gaat.

Spraakherkenning is een onderdeel van informatica en is ontwikkeld voor automaten en in het bijzonder voor computers. Spraakherkenning is niet hetzelfde als stemherkenning. Bij stemherkenning wordt vooral de stem herkend, passend bij de persoon. Bij spraakherkenning draait het vooral om de taal. Een woordenboek dat aangestuurd wordt door de stem. Dus met de stem teksten dicteren en/of spraakopdrachten geven.

Je start met een template matching

Artificial intelligence (AI) of Statistiek

Tegenwoordig maakt de spraakherkenning gebruik van statistieken of Big Data of AI (hoe je dat ook maar wilt noemen). Dat houdt in dat de spraakherkenning bijhoudt welke woorden je gebruikt, gecombineerd met andere woorden, context controle uit de Nederlandse taalmodule en zij analyseert voortdurend de stem.

Begrijpt spraakherkenning een woord niet, dan zoekt zij in de aanwezige akoestische modellen naar een woord welke daar het dichtst bijligt. Vervolgens zoekt zij in het persoonlijk statistiek of Log-file, welke van de geselecteerde woorden het meest wordt gebruikt door de spreker.

Niet alleen het woord zelf maar ook in combinatie met andere woorden. Een voorbeeld is wanneer je in de mode werkt, je vaak de woorden blouse en rok combineert in één regel, spraakherkenning geeft voorrang aan deze combinatie. Dus ook de volledige regel wordt geanalyseerd op woordgebruik.

Eigenlijk is dit de schrijfstijl van een persoon, hoe zij de woorden plaatst in een zin en welke woorden zij gebruikt.

Meer leren over spraakherkenning? Of een dagje proberen? S chrijf je in voor een workshop!

Hoe voeg je woorden toe aan een woordenboek of lexicon?

Link naar YouTube

Lexicon en corpus

Er is een standaard woordenboek aanwezig en door het gebruik van woorden en het toevoegen van woorden, wordt de herkenbaarheid hoog en zo wordt er een persoonlijk corpus gemaakt. Een eigen spraakprofiel.

Spraakopdrachten of spraakcommando’s

De spraakopdrachten zijn meestal voor sjablonen, autoteksten, of het aansturen van een menu binnen een programma. Deze spraakopdrachten kun je trainen zodat zij ook aan jou stem kunnen wennen. Er zijn voorgeprogrammeerde spraakopdrachten en je kan zelf spraakopdrachten maken. Sjablonen, wat zijn ook spraakopdrachten, zijn vooral handig wanneer je vaak dezelfde tekst gebruikt. Je kunt met één spraakopdracht een heel stuk tekst genereren.

Werkt het altijd zo?

Dit bovenstaande verhaal werkt alleen bij spraakherkenningsprogramma’s die per persoon werken oftewel gebruikers-afhankelijk zijn. Een voorbeeld is Nuance product Dragon NaturallySpeaking. De corpus wordt opgebouwd voor één persoon en daardoor is de herkenbaarheid erg hoog.

Maak je gebruik van bijvoorbeeld Siri of Google, dan gebruik je een corpus voor meerdere personen en is de herkenbaarheid minder goed en kun je geen woorden of spraakopdrachten toevoegen.

Deze methode is niet geschikt voor professionele omgeving. Niet alleen omdat de herkenbaarheid slecht is en er geen vaktaal kan worden toegevoegd, maar ook omdat de beveiliging niet optimaal is.