Emotie spraakherkenning: de volgende stap

Speech Emotion Recognition ofwel SER. Emotie automatisch herkennen voor telefoondiensten, ziekenhuizen en advocaten.

Het huilen van baby's wordt al onderzocht, de kleuren van bloemen en nu dus ook de emotie in een stem.

Toekomstmuziek of kan het al?

Intonatie is belangrijker dan tekst

Er is een bekende, niet geheel wetenschappelijk onderbouwde, stelling dat menselijke communicatie loopt volgens de

7-38-55 regel:

7% is puur gebaseerd op gebruikte woorden

38% op intonatie

55% op lichaamstaal

Als we dit aanhouden, werken we met de chat maar met 7% van alle communicatiemogelijkheden.

100% is alleen mogelijk wanneer je elkaar ziet, in het echt, want met bijvoorbeeld een online gesprek zie nog alleen iemands gezicht, terwijl wat iemand met handen of benen doet ook veelzeggend kan zijn.

Maar als we de 38% intonatie kunnen ondervangen, hebben we al een enorme winst. Want de intonatie maakt veel meer duidelijk over de bedoeling van een opmerking. Niet voor niets gebruiken we binnen de mail en vooral binnen WhatsApp emoticons om onze opmerkingen toe te lichten.

SER: effectiever werken

Wanneer het mogelijk is om door stemanalyse te horen hoe de spreker zich voelt, kan dat invloed hebben op hoe je met hem omgaat. Wanneer een boze klant scheldt, is de situatie duidelijk, maar hij kan ook beleefd, maar met ingehouden woede bellen. Kan je horen of iemand nerveus is of veel stress heeft? Bij een klantenservice kan het schelen wanneer een ontevreden, boze klant meteen doorverbonden wordt met een ervaren medewerker die getraind is in moeilijke gesprekken.

Maar denk bijvoorbeeld ook aan de medische zorg: er is steeds meer belangstelling voor het inzetten van robots als ondersteuning van de verpleging. Wanneer de robot niet alleen hoort : “ik heb pijn”, maar ook kan inschatten of het een losse opmerking is, of dat de patiënt stress of een andere vorm van spanning ervaart, kan hij beter adequaat reageren op een dergelijke oproep.

Met emotie meer vertrouwen

Bovendien zal de patiënt meer vertrouwen krijgen in de robot wanneer deze hem beter aanvoelt. Vergelijk het met je eigen frustraties wanneer je op een website te maken krijgt met zo’n chatbot die maar niet begrijpt wat je wilt en steeds dezelfde vraag herhaalt.

Op deze pagina vind je een filmpje van een spraakassistent

die niet wil luisteren naar een kind.

Wanneer je contact krijgt met een sterk verbeterde versie, heb je er minder problemen met dat je niet met een mens van vlees en bloed maar met een chat communiceert. Als de reactie maar vlot is, en met de juiste reactie op jouw vraag.

Ook bij bijvoorbeeld e-learning kan SER een positieve invloed hebben. Denk aan een online sessie, waarbij uit de manier waarop een student reageert opgemaakt kan worden of deze het nog begrijpt, of zich misschien enorm verveelt. Dan kan de docent eerder de les aanpassen.

Vormen van spraakherkenning

Automatische spraakherkenning (in vaktaal Automatic Speech Recognition ofwel ASR) is inmiddels in onze wereld behoorlijk ingeburgerd. Allerlei apparaten kunnen met de stem bestuurd worden, neem de televisie, je gordijnen, verlichting of de verwarming.

Mijn eigen Android telefoon vraagt me te pas en te onpas of ik niet een bepaalde opdracht wil inspreken. Ik wil dat helemaal niet, (meestal vraagt ie ook iets waar ik op dat moment helemaal niet op zit te wachten), maar het is dus mogelijk.

Maar over dit soort gadgets (zo zie ik ze meestal) of over de standaard spraakherkenning zoals wij aanbieden wil ik het niet hebben.

Onlangs viel mijn oog op een artikel over een heel ander fenomeen: de herkenning van emotie in spraak. De officiële term is Speech Emotion Recognition ofwel SER.

Hoe dicteer je emoticons met Dragon?

Toekomstmuziek die het volgen waard is

Speech Emotion Recognition: voorlopig is het nog toekomstmuziek, maar hoe meer ik erover nadenk, des te meer zie ik dat er mogelijkheden zijn, en dat het een welkome uitbreiding van de spraakherkenning zou zijn.

Misschien wel het einde van de carrière van de mensen op bijvoorbeeld Schiphol die, toen nog volop gevlogen werd, alle dagelijks binnenkomende bommeldingen afluisterden en beoordeelden op al dan niet serieus te nemen. Misschien kunnen zij met hun expertise aan de slag bij de ontwikkeling van SER?

Hoe klinkt jouw stem bijvoorbeeld ‘s morgens?

Heb jij ‘s morgens een zachte stem of juist niet? Herkent je partner je humeur meteen, al bij de eerste indruk? Uiteraard hebben we geen machine learning of deep neural networks voor nodig. Magnifiek hoe onze emotionele radars werken.

Bij de SER gaat het om personen die we niet kennen en niet weten hoe de stem emotioneel klinkt.

De pragmatische aspecten van elke stem wordt in een ‘Database of Emotional Speech’ opgeslagen. Veel informatie met aspecten van de menselijke stem maakt een goed gevulde database.

Paul Watzlawick een van 's werelds meest vooraanstaande communicatiewetenschappers zou jaloers geweest zijn op dit innovatieve product.

Wordt ongetwijfeld vervolgd.

* bron speechtechmag.com