Algunos idiomas que nunca han sido descifrados podrían someterse a este sistema de traducción automática

La nueva piedra Rosetta podría ser este nuevo sistema de traducción automática basada en una técnica de Inteligencia Artificial, el machine learning, pues ha logrado ya traducir lenguajes ya perdidos.

En solo unos años, el estudio de la lingüística ha sido revolucionado por la disponibilidad de enormes bases de datos anotadas y técnicas para que las máquinas aprendan de ellas. En consecuencia, la traducción automática de un idioma a otro se ha convertido en rutina. Y aunque no es perfecto, estos métodos han proporcionado una forma completamente nueva de pensar sobre el lenguaje.

Machine Learning

Jiaming Luo y Regina Barzilay del MIT y Yuan Cao del laboratorio de IA de Google en Mountain View, California, han desarrollado un sistema de aprendizaje automático (machine learning) capaz de descifrar idiomas perdidos. El enfoque que usaron fue muy diferente de las técnicas estándar de traducción automática.

En Xataka

El futuro era que un robot lavaplatos usase "machine learning" y visión computacional para que no tengamos que fregar nosotros

En el enfoque estándar, el proceso se basa fundamentalmente en los grandes conjuntos de datos. Pero hace un par de años, un equipo alemán de investigadores demostró cómo un enfoque similar con bases de datos mucho más pequeñas podría ayudar a traducir idiomas mucho más raros que carecen de las grandes bases de datos de texto. El truco es encontrar una forma diferente de restringir el enfoque de la máquina que no se fundamente en la base de datos.

En Xataka

Una IA se lee un millón y medio de artículos científicos y encuentra cosas que los científicos no sabían ni que existían

Ahora Luo y su equipoa han ido más allá para mostrar cómo la traducción automática puede descifrar los idiomas que se han perdido por completo. La restricción que usan tiene que ver con la forma en que se sabe que los idiomas evolucionan con el tiempo.

La idea es que cualquier idioma puede cambiar solo de ciertas maneras; por ejemplo, los símbolos en idiomas relacionados aparecen con distribuciones similares, las palabras relacionadas tienen el mismo orden de caracteres, etc. Con estas reglas que limitan el sistema, resulta mucho más fácil descifrar un idioma, siempre que se conozca el idioma progenitor.

Luo y compañía pusieron a prueba la técnica con dos idiomas perdidos: lineal B (sado para escribir el griego micénico, aunque fue usado principalmente con fines administrativos, desde el 1600 hasta el 1110 a. C.) y ugarítico (una lengua semítica que se hablaba en Ugarit (Siria) a partir del 2000 a. C.). Los lingüistas saben que el lineal B codifica una versión temprana del griego antiguo y que el ugarítico, que fue descubierto en 1929, es una forma temprana de hebreo.

Dada esa información y las limitaciones impuestas por la evolución lingüística, el sistema puede traducir ambos idiomas con una precisión extraordinaria. Este es un trabajo impresionante que lleva la traducción automática a un nuevo nivel. Pero también plantea la interesante cuestión de otros idiomas perdidos, particularmente aquellos que nunca han sido descifrados.

Machine Learning

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios