Deep learning voor Dragon spraakherkenning

In de nieuwste generatie van de deep-learning technologie van Nuance voor spraakherkenning hebben ze technieken gebruikt die het foutenpercentage met maximaal van 33 % kunnen verminderen, daarbij wordt gebruik gemaakt van End-to-End (E2E) learning met aanpassing van tekstgegevens voor minimale woordfoutpercentages.

Maximaal 33% foutreductie door nieuwe technieken E2E learning

* door Godie Vierbergen

Conventionele spraakherkenning tov E2E spraakherkenning

Een essentieel vermogen van automatische spraakherkenning is het omgaan met diversiteit in spraak, veroorzaakt door verschillende accenten, leeftijdsgroepen of spreekstijl, evenals lawaaierige omgevingen. Enkele jaren geleden pionierde de Dragon-dicteer oplossingen van Nuance met het gebruik van Deep-learning technologie voor luidsprekeraanpassing in professionele dicteersystemen.

Figuur 1, verschil herkenning conventioneel met end-to-end spraakherkenning

Deep-learning heeft de manier waarop computers spraakherkenning uitvoeren snel veranderd. Traditioneel werd het proces, om een automatische spraakherkenning te bouwen, in kleinere stukken opgesplitst. Dit mondde uit in verschillende componenten voor het modelleren van de frequentie, het gebruik van woorden (taalmodel), de manier waarop woorden worden gevormd uit fonemen, hoe woorden worden uitgesproken (uitspraakmodel) en hoe fonemen worden gelezen uit signalen die door de microfoon worden vastgelegd (akoestisch model).

Audio (invoer) -> functie-extractie -> foneemdetectie -> woordsamenstelling -> teksttranscript (uitvoer).

Een duidelijke beperking van deze pijplijn-architectuur is dat elke module afzonderlijk moet worden geoptimaliseerd volgens verschillende criteria. Dit maakt het geheel complex voor analyse en trainen van het geheel.

De E2E-aanpak bestaat uit het vervangen van de bovengenoemde keten voor een enkel neuraal netwerk, waardoor een enkel optimalisatiecriterium kan worden gebruikt om het systeem te verbeteren:

Audio (invoer) - - - (NN) - → transcriptie (uitvoer)

Voor optimalisatie hoef je dus alleen het middenstuk te trainen. Dit wordt gedaan met behulp van gegevens uit een grote databank met gegevens en met een verscheidenheid aan werkwijzen.

Een uitdaging waarmee Nuance geconfronteerd werd bij het implementeren van End-to-End automatische spraakherkenning is dat DNN's (diep neuraal netwerk) het akoestische, uitspraak- en taalmodel enorm groot moet zijn om effectief te zijn: het model dat in één artikel wordt gebruikt, bevat in feite meer dan 100 miljoen parameters.

Door gebruikt te maken van gegevens zoals tekstdocumenten van dezelfde gebruikers in plaats van alleen spraakgegevens, kon Nuance grotere winsten halen en het externe taalmodel verfijnen. Dit taalmodel is geïntegreerd in het E2E systeem.

Door te leren van de tekstdocumenten gaf deze methode 33 % meer foutreductie dan in het voorgaande proces.

Dragon Medical Direct en Deep Learning

Bij het medische spraakherkenningsoplossing Dragon Medical Direct, DMD, is gebruik gemaakt van deze Deep Learning technologie om de documentatietijd tot 45 % te verkorten, terwijl de kwaliteit met 36 % is verbeterd.

Onze ervaringen met DMD verlopen exact volgens het grafiek in figuur 1, na een korte start wordt de herkenbaarheid exponentieel beter.

Wat is End-to-End deep, E2E, learning?

End-to-End learning (leerproces) is een soort Deep-learning-proces waarin alle parameters gezamenlijk worden getraind in plaats van stap voor stap. Bovendien gebruikt de machine eerder opgedane menselijke input om zijn taak uit te voeren.

Het enige verschil tussen End-to-End leerproces en Deep-learning-proces is dat het End-to-End leerproces alle parameters tegelijkertijd moet verzamelen, terwijl Deep-learning-proces de parameters gezamenlijk of stap voor stap kan verzamelen. Daarom is elk End-to-End leerproces een Deep-learning-proces, maar niet elk Deep-learning-proces is een End-to-End leerproces.

Onderstaande video geeft meer duidelijkheid over dit ingewikkelde leerproces.

End-to-end learning voor vertalen met Microsoft Translation

Er zijn meer technieken welke E2E learning gebruiken. We zien Microsoft Translate gebruik maken van dezelfde techniek. De E2E learning methode is geïntegreerd in Machine Translation. Zie het mooie en begrijpelijk voorbeeld op deze pagina.

Er zijn veel redenen waarom E2E in verschillende gevallen een onhaalbare optie is:

Er is een enorme hoeveelheid gegevens nodig: in het geval van Nuance zijn er meer dan 100 miljoen parameters per document welke gebruikt moeten worden.
Moeilijk om het systeem te verbeteren of aan te passen: als er enige structurele verandering moet worden aangebracht, heeft het oude model geen nut en moet DNN opnieuw worden vervangen en opnieuw worden getraind.
Zeer efficiënte andere modules kunnen niet worden gebruikt: veel andere technieken zijn efficiënt om sommige taken op te lossen, zodra deze zijn geïntegreerd in een E2E-systeem, kan het niet meer als E2E worden beschouwd.
Moeilijk te valideren: als een hoog validatieniveau nodig is, kan E2E onhaalbaar worden.