Las huellas de ADN de los libros: descifrando la humanidad en función de lo que escribe y cómo lo escribe (I)

Los libros, aunque no estén escritos con el código de cuatro letras del ADN (ACGT), también presentan una codificación de la que podemos entresacar información tan descriptiva y valiosa como la que obtenemos decodificando el ADN.

Por ejemplo, en 2009, unos investigadores de la Universidad de California en Berkeley desarrollaron un programa informático que busca en los textos cadenas de pautas o semejanzas. Un programa que funcionaba de igual modo si analizaba el genoma de un mamífero.

Dicho programa se usó para analizar tanto el genoma de distintos mamíferos como una docena de libros, entre los que se hallaban República, de Platón, y o Peter Pan. Lo que hizo este programa es, en el caso de los libros, lograr clasificarlos por géneros literarios. Y lo hizo perfectamente.

También servía dicho programa para averiguar si alguien había sido el autor de un texto, o no. Por ejemplo, a Shakespeare se le adjudican varias obras que aún no sabemos a ciencia cierta si le pertenecen. El programa sirvió para confirmar que Los dos nobles caballeros en realidad era de Shakespare, aunque hasta entonces muchos expertos cuestionaran esta autoría.

Puede que parezca un poco raro mezclar textos escritos por personas con genomas, que "han sido escritos por la naturaleza". Pero, de hecho, la criptografía moderna hunde tiene sus orígenes en la genética: cuando el joven genetista William Friedman se unió a un excéntrico laboratorio de ideas del Illinois rural de 1915, Friedman acabó trabajando, tras zanjar la investigación sobre la luz de la luna sobre los genes del trigo, en nada menos que en esclarecer si realmente Francis Bacon había escrito las obras de Shakespeare, como algunos suponen.

Empleando sus herramientas, Friedman descubrió que las suposiciones sobre la autoría de Bacon carecían de fundamento. Tal y como abunda en ello Sam Kean en su libro El pulgar del violinista:

cualquiera podría utilizar el mismo esquema de descifrado para “demostrar” que Teddy Rooselvelt había escrito Julio César. No obstante, Friedman había visto en la genética una especie de sistema de descifrado biológico, y tras degustar el auténtico descifrado de códigos, trabajó como criptógrafo para el gobierno de Estados Unidos.

Hacia la década de 1950, los biólogos ya solían referirse a los pares de las bases ACGT como “bits” biológicos, y a la genética como un “código” que había que descifrar. Bits como los que había acuñado Claude Shannon en su artículo “Una teoría matemática de la comunicación”. A partir de ese momento, el bit se uniría al centímetro, al kilogramo, al litro y al mismo minuto como una cantidad determinada. Una unidad para medir información.

Con la digitalización o conversión en bits de los datos, incluidos los libros, podremos llegar mucho más lejos en la decodificación de textos. Hasta el punto de que saber cuándo se usaban unas palabras en vez de otras.

Es lo que se ha venido a llamar Cultoromía, la lexicología informática que intenta comprender el comportamiento humano y la tendencias mediante el análisis cuantitativo de textos. La Cultoromía sólo es posible porque, desde de la invención de la imprenta a mediados del siglo XV, se estima que se han publicado unos 130 millones de libros individuales, y Google, en 2012, ya tenía escaneados 20 millones de títulos, más del 15 % del legado escrito de la humanidad.

En la próxima entrega de este artículo seguiremos indagando por los vericuetos del ADN de las letras.

Ver todos los comentarios en https://www.xatakaciencia.com

VER 0 Comentario

Portada de Xataka Ciencia