Científicos de la Universidad Autónoma de Barcelona demuestran por primera vez la ley Zipf en una de las mayores colecciones digitales de libros.
Cuando el escritor y filántropo Michael Hart fundó el proyecto Gutenberg, su idea era crear una colección digital de libros accesibles para todo el mundo. Así fue como empezó a transcribir inicialmente la Declaración de Independencia de Estados Unidos, para luego reunir obras clásicas de Homero, Shakespeare o Mark Twain. Un ingente trabajo fundamental en la historia de la cultura que, por sorpresa, guardaba un «tesoro» matemático inesperado: la ley Zipf.
Esta relación matemática, formulada en los años treinta por el lingüista norteamericano George Kingsley Zipf, determina la frecuencia de uso de las palabras. La ley Zipf señala que «la palabra más frecuente de un texto aparece el doble de veces que la siguiente más frecuente, tres veces más que la tercera más frecuente, cuatro veces más que la cuarta más frecuente, y así sucesivamente».
Por sorprendente que parezca, la ley Zipf se encuentra en la mayor parte de los textos, incluso en aquellos no literarios. Hasta la fecha los investigadores habían comprobado con más o menos rigor la presencia de esta relación matemática en diversos trabajos. Sin embargo, era necesario demostrar que la ley Zipf se hallaba también en una base de datos suficientemente grande como para dar validez estadística a esta hipótesis. ¿Y qué mejor archivo que el proyecto Gutenberg, que alberga una colección digital de 50.000 libros?
Científicos del Centre de Recerca Matemàtica de Cataluña, adscrito a la Universidad Autónoma de Barcelona, han demostrado por primera vez que la ley Zipf también se cumple en los textos que podemos encontrar en la plataforma Gutenberg. Según el análisis, si se ignoran los términos más raros, el 55% de los libros cumplen a la perfección esta relación matemática. Teniendo en cuenta las palabras más extrañas, el porcentaje se reduce al 40%. Unos resultados sorprendentes, dado que hasta la fecha la ley Zipf nunca se había comprobado en conjuntos de más de una docena de textos.
Es decir, el catálogo del proyecto Gutenberg cumple con la relación postulada por George Kingsley Zipf. Como han demostrado los investigadores en este trabajo publicado en PLOS One, al ordenar todas las palabras por frecuencia de uso, se observa que la segunda más frecuente aparece 1/2 veces el número de veces que aparece la más frecuente. La tercera se lee 1/3 veces que la primera, la cuarta en 1/4 ocasiones y así sucesivamente.
Como señala Álvaro Corral, «la ley Zipf ha generado mucho debate, pero siempre basándose en su validez en algunos ejemplos particulares». Pero en la época del big data y la supercomputación, la relación matemática puede ser demostrada con análisis a gran escala. Esta primera investigación es solo el primer paso en ese sentido. Y sus conclusiones son, sin duda, sorprendentes. En palabras de Corral, «aunque la literatura se considera una de las expresiones por antonomasia de la libertad creadora, ni los más grandes autores como Shakespeare o Dickens escapan a la tiranía de la ley Zipf». ¿Quién se atreve ahora a separar las matemáticas de las letras?
Imágenes | Abhi Sharma (Flickr)