Traduction automatique : le NIST publie ses evaluations 2006

Le programme TIPSTER (1991-1998) de la Defense Advanced Research Projects
Agency (DARPA) visait a permettre de detecter et extraire de l’information
de documents correspondant a une recherche donnee et a synthetiser des
documents. Ce programme s’interessait uniquement aux documents en langue
anglaise. Le programme Translingual Information Detection, Extraction and
Summarization (TIDES) lui fait suite et vise a offrir les memes possibilites
a partir de documents en langue etrangere. Considerant que des outils de
traduction automatiques existaient deja pour les principales langues
europeennes, et dans une proportion moindre pour les langues asiatiques, les
priorites sont la traduction de l’arabe et du chinois vers l’anglais : des
anglophones pourront trouver et interpreter des informations critiques dans
d’autres langues sans la maitrise de celles-ci. Le National Institute of
Standards and Technology (NIST) a dans ce cadre lance un programme visant a
evoluer les outils de traduction automatique. Si une metrique permettant
d’evaluer de tels outils fait encore l’objet de recherches, c’est la methode
d’evaluation automatique de traduction BLEU d’IBM qui est actuellement
utilisee. Les resultats de l’edition 2006 de l’evaluation conduite par le
NIST concernent des traductions de l’arabe vers l’anglais et du chinois vers
l’anglais. Plusieurs types d’echantillons de donnees utilises comme
reference par les algorithmes sont differencies. Les algorithmes sont alors
notes pour la traduction de textes venant de fils de nouvelles, de groupes
de discussion, et de transcriptions d’emissions de nouvelles et de
conversations par des humains (donnees issues du programme Global Autonomous
Language Exploitation GALE de la DARPA ou du NIST). Comme l’annee derniere,
l’algorithme presente par Google semble se degager comme leader que ce soit
pour la traduction de l’arabe vers l’anglais - 22 algorithmes ont ete
presentes - ou du chinois vers l’anglais - 24 algorithmes ont ete presentes
: souvent premier, jamais plus que troisieme ; en dehors des algorithmes
presentes par des entreprises ou universites americaines, c’est l’algorithme
presente par l’universite allemande RWTH d’Aix-la-Chapelle qui semble
obtenir les meilleurs resultats. Les scores publies ne permettent pas
d’apprecier l’evolution par rapport a l’annee derniere : les textes de
reference et les textes a traduire ne sont pas les memes ; pris de facon
brute les scores sont d’ailleurs inferieurs ...