Het verschil tussen juridisch woordenboek in het Nederlands en Engels?

Woordenboek( Lexicon)  gebruiken tijdens spraakherkenning

Het verbaasde mij dat een Legal woordenboek voor Engelse spraakherkenning vele malen kleiner is dan die van het Nederlands. Cedere maakt lexica voor verschillende vakgroepen, waaronder Legal, in verschillende talen, waaronder Engels. 

 

Medische lexicons of juridische lexicons zijn totaal verschillend, op letselschade lexicons na. Letselschade lexicons combineert beide lexicons. Het medisch woordenboek wordt ook wel Thesaurus genoemd. 

 

Medische termen leent veel uit de medische terminologie en dus veel Latijnse en Griekse woorden. Juridische terminologie gebruikt meer algemene woorden, samengesteld uit het standaard Nederlands.

Bij het samenstellen van een Engelse juridisch lexicon vonden we weinig nieuwe woorden. Hoe zou dat komen?

Opvallend: juridische woorden die staan in het Dragon vocabulaire is in het Nederlands vele malen groter dan het Engels. Dan hebben we het over de verhouding van 20.000 tegen 200 woorden. Het standaard lexicon voor spraakherkenning bevat 250.000 woorden. Enorm verschil dus.

 

Om dit te verklaren moeten we de basis van de taal gaan bekijken, de basisregels, eigenlijk de verschillen van het Engels en Nederlands. Specifieker nog de vervoegingen en het gebruik van de Engelse termen.

 

In het Nederlands plakken we alle woorden aan elkaar zodat het samen een nieuw woord vormt. In het onderstaand voorbeeld (plaatje) zie je goed dat de woorden ook los van elkaar op zichzelf staande woorden zijn. Zoals aansprakelijkheid en brief wordt samengesteld als aansprakelijkheidsbrief. En krijgt hierdoor een nieuwe betekenis.

Regels voor het aaneenschrijven van woorden

Samenstellingen bestaan vaak uit twee zelfstandige naamwoorden. De samenstelling belastingdienst is bijvoorbeeld een combinatie van belasting en dienst. Deze zelfstandige naamwoorden vormen samen een nieuwe betekenis.

 

Zo schrijf je kleineondernemersregeling (regeling voor kleine ondernemers) als één woord. Als je in plaats daarvan kleine ondernemersregeling schrijft, dan heb je het over een kleine regeling voor ondernemers. Dat is niet per se fout, maar de spatie leidt wel tot een andere betekenis.

 

Het Nederlands heeft veel woorden overgenomen uit het Engels. Engelse leenwoorden kom je daarom ook tegen in een groot aantal samenstellingen. Deze samenstellingen volgen de regels van het Nederlands.

 

Bij zelfstandige naamwoorden schrijf je beide delen van een samenstelling dus aan elkaar, ook als beide delen uit het Engels komen.

 

Voorbeelden:

  • accountmanager
  • trailrunning
  • managementautoriteit
  • programmamanager

 

Verschil Lexicon Legal Nederlands en Lexicon Engels

Onderstaand plaatje toont goed de verschillen. Links zie je een deel uit het woordenboek specifiek voor juristen en rechts de vertaling daarvan in het Engels.

 

Spraakherkenning werkt met losse woorden die achter elkaar worden geplaatst wanneer een auteur deze los achter elkaar uitspreekt.

 

Een voorbeeld is liability claims, het woord liability staat los in het woordenboek en claims staat los in het woordenboek. Ze zijn daarom ook onafhankelijk van elkaar te gebruiken.

 

Spreekt een dicteerder deze woorden achter elkaar uit dan schrijft Dragon liability claims. Dit maakt het woordenboek kleiner omdat er geen verbindingswoord nodig is zoals dat wel bij het Nederlands het geval is.

 

Verschil juridische woordenboek Engels en Nederlands

Waarom moeten woorden in Nederlands Dragon Individual of Dragon Legal extra worden toegevoegd?

In het Nederlands hebben we spelregels voor het aaneenschrijven van woorden. Nuance Communications heeft Dragon spraakherkenning spelregels meegegeven maar vaak gaat het niet helemaal goed. Dragon Legal blijft spraakherkenningssoftware zonder taalgevoel, we zullen die woorden er zelf in moeten stoppen.

 

Het is beter om een Legal lexicon toe te voegen zodat de spelregels goed worden uitgevoerd tijdens het dicteren en er minder fouten worden gemaakt.

Tussen-s in samenstellingen en afleidingen

Twee tussenletters maken het Nederlandse taalgebruikers moeilijk: de tussen-n en de tussen-s. Ze zorgen nogal eens voor gebakkelei. Het is fijn als je dan kunt terugvallen op een duidelijke regel. In het geval van de tussen-s is er wel een hoofdregel, maar daar kun je meerdere kanten mee op. Je zult in dit geval dus vooral je taalgevoel moeten aanspreken. Waar dat gevoel je in de steek laat, kun je gebruikmaken het Groene Boekje.

Webinar Dragon lexicon onderhouden

Is het dan nodig om een Engels vocabulaire te gebruiken in Dragon Legal?

Engelse Dragon spraakherkenningssoftware zal de woorden als losse woorden achter elkaar schrijven, echter is de herkenning toch beter wanneer je de losse woorden gezamenlijk toevoegt als gecombineerde woorden.

 

De combinatie van deze losse woorden wordt dan eerder herkend waardoor je een betere woordherkenning krijgt en dus een beter functionerende spraakherkenning met minder fouten.

Woordherkenning van 99,8 % is goed haalbaar wanneer je een uitstekende en uitgebreide vocabulaire gebruikt

Bij een goed ingerichte lexicon en bij het juist corrigeren haal je makkelijke een hoge score van herkenning. Bij de juiste voorinvestering zijn de resultaten uitmuntend. De investeringstijd is snel terugverdiend. 

Nederlands Legal lexicon groter dan het Engels Legal lexicon?

Waarom is een Nederlands woordenboek veel groter dan het Engelse? Dat heeft te maken met het combineren van woorden die standaard al aanwezig zijn en als samenstellingswoord tevens wordt toegevoegd.

 

In het Nederlands komt bij aansprakelijkheidstraject de woorden aansprakelijkheid en traject ook voor, dus per twee woorden nog een extra derde woord. Je kunt je voorstellen dat het vocabulaire hierdoor enorm groeit. 

Is een groot woordenboek slecht voor de herkenning? 

Bij een groot woordenboek moet spraakherkenning langer zoeken naar het juiste woord of combinatie nadat deze is uitgesproken. Daardoor maakt zij meer fouten, woorden lijken meer op elkaar.

 

Dit is opgelost door de software zelf. Alle gebruikte woorden worden met geluid opgeslagen in een log-file, een bestand die later door de Akoestische en taalmodeloptimalisatie wordt gebruikt om de herkenning sneller en beter te maken.

 

Door aangepaste woordenlijsten met terminologie per vakgroep aan de software toe te voegen, maakt spraakherkenning sneller en nauwkeuriger dan ooit. Zoals politieke, financiële en economische termen die je in de juridische praktijk nodig hebt. Kies dus voor de juiste samenstellingen en niet te veel, dat geeft juist een verslechtering.

 

Naast passende terminologie die te maken heeft met je vakgroep, heeft het inzetten van Deep Learning technologie een vogelvlucht gemaakt. Dragon Professional Anywhere is daar een voorbeeld van. Artificial Intelligence met Legal lexicon is niet voor de volgende generatie maar voor nu, test het zelf 2 weken uit!


Lees meer:

telefonisch overleg op kantoor