Une methode de synthese vocale utilisee par IBM

L’usage de la synthese vocale est aujourd’hui assez repandu, Elle est en
particulier utilisee dans les centres d’appels telephoniques ou dans les
systemes de navigation automobile. Le but de la recherche dans ce
secteur est d’ameliorer le ressenti des clients qui appellent, en
rendant la voix la plus proche possible d’une voix humaine, avec ses
intonations, ce en quoi les systemes actuels pechent. La synthese vocale
pourrait aussi etre utilisee pour les appareils portables et les
appareils domestiques, et pour generer les voix dans les jeux video et
dans les films, il est alors indispensable de produire les intonations
attendues. Comme dans les autres methodes de synthese vocale utilisees
jusqu’a present, la nouvelle methode utilisee par IBM dans le
synthetiseur NAXPRES (Natural Expressive Speech
Synthesizer) est fondee sur des enregistrements de voix humaine et
s’appuie sur une decomposition en phonemes, c’est-a-dire des unites
sonores qu’il n’est pas possible de dissocier en unites plus simples
appelees phonemes (une quarantaine pour l’anglais). Lors de la synthese
vocale des echantillons sonores correspondant a des phonemes avec
diverses intonations sont echantillonnes et assembles. La premiere etape
consiste donc a creer ces echantillons sonores : 10 000 phrases sont
enregistrees par chaque locuteur, puis analysees de facon a mettre en
relation chaque mot du texte lu, avec les phonemes correspondants en
memorisant la sequence (qui influe sur l’intonation, ou plus largement,
la prononciation). Une base de donnees est ainsi constituee qui comprend
10 000 echantillons pour chacun des phonemes de la langue anglaise.
Cette redondance de l’approche proposee contribue a la robustesse du
systeme mais est aussi ce qui permet de produire une elocution plus
« naturelle » que les systemes usuels. Le logiciel de synthese vocale
utilise la base de donnees avec une approche statistique et en
s’appuyant sur un analyseur grammatical. Les choix ont fait l’objet d’un
reglage sur un grand nombre de cas, avec des mesures comparatives avec
des phrases enregistrees, pour valider le bon fonctionnement.