Spraakcomputer met een gezicht

Onderzoekers van de Vrije Universiteit Brussel hebben een programma ontwikkeld dat een pratend gezicht toevoegt aan een spraakcomputer. Het is niet alleen aangenamer voor de luisteraar om een gezicht bij de tekst te hebben, het bevordert ook echt de communicatie.

spraakcomputer

Uit onderzoek blijkt dat mensen graag zien wie tegen ze praten, zelfs al is dat een neppersoon of pakweg een diertje. Beeld bevordert en verduidelijkt de communicatie. Daarom proberen wetenschappers al een poosje om beeld toe te voegen aan computerspraak.

 

Totnogtoe werd vooral geëxperimenteerd met 3D-animatie, zoals die ook gebruikt wordt in animatiefilms van pakweg Pixar en Disney. Het grote nadeel van 3D-animatie is echter dat het uitermate arbeidsintensief is omdat er achter elk beeld een gigantisch programmeerwerk schuilgaat.

 

Ingenieur Wesley Mattheyses van de Vrije Universiteit Brussel heeft nu samen met enkele collega’s een alternatief systeem voor audiovisuele spraaksynthese ontworpen. Het gaat om een animatie in 2D, waarbij een audiovisuele gegevensbank wordt samengesteld met zinnen en woorden die gefilmd zijn terwijl ze door een echte persoon worden uitgesproken. Het is de eerste keer dat audio en video samen worden verwerkt in de synthese, wat een veel realistischer effect geeft dan bij andere systemen die de beelden pas achteraf toevoegen aan de audio.

 

Dankzij deze synthesizer hoeft men later eenvoudigweg een nieuwe tekst in te geven om een nieuw gesproken bericht te genereren. Door de beelden vloeiend in elkaar te laten overlopen, zorgt de nieuwe techniek ervoor dat het beeld er veel natuurlijker en realistischer uitziet dan een 3D-animatie. En dat is belangrijk, want hoe realistischer de video, hoe doeltreffender de communicatie verloopt.

 

In een eerste fase werd een Engelstalig testsysteem uitgewerkt, maar nu wordt gewerkt aan een uitgebreidere Nederlandstalige synthese. Dit systeem zal worden geoptimaliseerd voor de synthese van een virtuele weervrouw. Maar de mogelijke toepassingen van deze audiovisuele synthese reiken veel verder, tot zelfs e-learning met een virtuele leraar.

 

bron: EOS