Calidad que marca: comparativa Opentrad-Google para el par español-gallego

26/04/2011

Noticia: Calidad que marca: comparativa Opentrad-Google para el par español-gallego

Dos de las principales tendencias en la traducción automática actual son las representadas por los traductores de transferencia estructural (con información lingüística) y por los traductores estadísticos (sin conocimientos lingüísticos). Cuando la distancia entre los idiomas es reducida, como en el caso de los idiomas románicos (español, gallego, portugués o catalán, entre otros), donde el foco de atención se centra más en cuestiones lingüísticas que en las de estructura, resulta evidente, como mostraremos, que los traductores de transferencia estructural ofrecen unos resultados muy superiores a los estadísticos.

 

A continuación ofrecemos una comparativa entre el traductor estadístico de Google y el de transferencia estructural utilizado por Opentrad para el par español-gallego:

 

traductor automático

dirección de traducción

NIST*

BLEU*

Google

es > gl

7.5654

0.3299

Opentrad

es > gl

12.6131

0.8977

Google

gl > es

7.9922

0.4136

Opentrad

gl > es

12.1724

0.9062

 

Como podemos ver el traductor de Google (que utiliza el modelo estadístico, por tanto sin conocimientos lingüísticos) obtiene unos resultados claramente inferiores a los del traductor utilizado por Opentrad según los métodos de evaluación NIST y BLEU, que comparan textos traducidos por un humano con los traducidos por un traductor automático. La medida BLEU puntúa con una cifra entre 0 y 1, la cual indica la similitud entre el texto traducido automáticamente y el usado como referencia (traducido por un humano); el valor más cercano a 1 representa una mayor similitud. La medida NIST es una evolución derivada de BLEU y que tiene en cuenta más parámetros para medir la precisión de una traducción; cuanto más alta sea la puntuación más precisa será la traducción.

 

*Resultados obtenidos mediante mediciones realizadas con el script mteval-v11b.pl en base a la traducción de un documento de 500 líneas y con una traducción humana como referencia.

 

 
  • imaxin|software
  • Eleka