Columnas

null MATEMÁTICAS Y LETRAS

Hasta no hace muchos años, un estudiante era de ciencias o de letras, una materia pertenecía a uno u otro campo sin posibilidad de conexión entre sí. Gracias a las matemáticas, y en particular la estadística, se inicia una estrecha y fecunda relación entre las letras y las ciencias. Son muchas las disciplinas de aquellas que utilizan técnicas estadísticas para su desarrollo, como la lingüística cuantitativa, que se ocupa del estudio estadístico de los textos y que cada día está alcanzando una  mayor notoriedad debido, entre otras razones, al aumento de capacidad de los ordenadores.

George K. Zipf, profesor de alemán en Harvard, introdujo en 1949, en su  libro El comportamiento humano y la ley del mínimo esfuerzo, la ley que lleva su nombre y que constituye una de las herramientas básicas de la lingüística cuantitativa. Esta ley permite estudiar la regularidad en la distribución de las palabras en un texto escrito en cualquier idioma. Tomando uno suficientemente extenso, se consideran las palabras distintas que aparecen y el número de repeticiones de las mismas en el texto. A cada palabra se le asocia un número, llamado rango, según la siguiente regla: la que más veces aparece, es decir la que tiene mayor frecuencia, se le asigna rango 1; la siguiente que más aparece, rango 2; y así sucesivamente. Es lógico, pues, preguntarse si existe una ley para la frecuencia de cada palabra en función de su rango. La ley de Zipf establece que, en efecto, existe esa dependencia: la frecuencia con que una palabra aparece en un texto es inversamente proporcional a su rango. Esta dependencia es mejor para las palabras con mayor frecuencia y empeora con las palabras “más raras”, es decir, con aquellas que se repiten pocas veces.

Curiosamente, una de las novelas que peor se ajusta a la ley de Zipf es Don Quijote de la Mancha, cuyo vocabulario es más pobre del que cabría esperar, ya que en la segunda parte de la novela aparecen menos palabras nuevas de las que predice dicha ley.

La ley de Zipf, además, permite medir la riqueza de vocabulario de un  texto a través de la relación entre el tamaño del mismo y el número de palabras diferentes que contiene. Actualmente  se están estudiando  modificaciones de la fórmula de Zipf que permitan mejores ajustes entre la frecuencia y el rango y diseñando programas para el estudio de diversos aspectos estadísticos de grandes conjuntos de textos.