Clasificar y recuperar

Parece como si clasificar y recuperar fueran técnicas menores de contabilidad que no precisaran de demasiada formación matemática. Aunque se encuentre un placer tonto en ordenar a mano alfabéticamente una lista (algo tan simple como tricotar, supongo) o en encontrar una referencia en un gran cajón de fichas, pocas personas se han detenido a pensar en los aspectos teóricos de estas actividades. Sin embargo, hallar la mejor manera de realizarlas es un problema matemático interesante que tiene muchísima importancia práctica.

Suponga que le han pedido que ordene un gran montón de papeletas. Un método podría consistir en comparar sucesivamente cada papeleta con las que ya están ordenadas, colocarla en el lugar que le corresponde y luego hacer lo mismo con la siguiente papeleta del montón. O también podría dividir el montón en muchas pilas más pequeñas que ordenaría por el método que fuera. Luego reuniría estas pilas a pares y combinaría sus ordenaciones comparando los primeros elementos, los segundos elementos, etc. Con las pilas mayores así obtenidas volvería a hacer lo mismo: aparearlas y combinar sus ordenaciones. De este modo iría disminuyendo el número de pilas ordenadas y aumentando su tamaño, hasta que al final acabaría por tener una sola pila ordenada, con lo que habría terminado su tarea.

El método elegido no tiene demasiada importancia si sólo hay unas docenas de entradas, pero si son miles o millones la diferencia entre los tiempos necesarios para uno u otro método puede ser enorme. (Estoy suponiendo que el clasificador, ya sea una persona o un ordenador, puede hacer dos cosas: comparar dos números y mover un número de un lugar a otro). El primer método, que se llama algoritmo de clasificación por inserción, necesita, en el peor de los casos, aproximadamente N² pasos (o unidades de tiempo) siendo N el número de entradas a ordenar, mientras que el segundo, que se llama algoritmo de clasificación por combinación, sólo necesita unos N × ln(N) (donde ln() representa la función logaritmo natural, véase la entrada sobre E) pasos para el mismo número N de entradas. Si N es 100, N² es 10.000, mientras que N × ln(N) es sólo 460 —y la diferencia ya es sustancial.

Los algoritmos de recuperación diseñados para extraer y sacar fragmentos de información de una larga lista y después relacionarlos de diversas maneras consumen frecuentemente más tiempo que cualquiera de los dos algoritmos de clasificación anteriores. (Esto vale especialmente si los artículos son muy parecidos: es mucho más fácil encontrar una aguja en un pajar que en un montón de agujas). Algunos de estos algoritmos precisan de 2^N pasos para N entradas y es este hecho en particular el que nos convence de la importancia práctica de estas ideas. Si tomamos otra vez N = 100, 2^N es aproximadamente 1,3 × 10³⁰, un número tan enorme de pasos que hace que el algoritmo sea prácticamente inútil (y también inútil en la práctica). No es descabellado pensar que el fracaso de las economías centralizadas se pueda deber tanto a condicionantes de la teoría de la información como a condicionantes políticos, al encontrarse los comisarios con una dificultad creciente en la coordinación centralizada de unos datos exponencialmente crecientes acerca de la oferta, las partes y la logística. (Véase también la entrada sobre La complejidad).

El problema es universal. Ahora que una impresora láser puede convertir un ordenador personal en un centro de publicaciones o en una fundición de letra impresa, nuestra capacidad de clasificar y recuperar información ha caído todavía más por debajo de nuestra capacidad de producirla. A medida que crece rápidamente la cantidad de boletines financieros y artículos de investigación, de noticias y periódicos, de bases de datos y el volumen del correo electrónico, o de libros de texto o de cualquier otra clase, el número de sus interdependencias crece exponencialmente. Necesitamos nuevas maneras de interrelacionarlos, de encontrar referencias cruzadas y de determinar prioridades si no queremos anegarnos en un mar de información.

Frecuentemente tenemos más información de la que somos capaces de manejar. El informático Jesse Shera da tristemente en el clavo cuando dice, parafraseando a Coleridge: «Datos, datos por todas partes, pero ni una sola idea para pensar». Cada vez es mayor el número de personas que se basan solamente en resúmenes, reseñas, sumarios y estadísticas, pero carecen de los útiles conceptuales necesarios para llenarlos de contenido. El algoritmo de clasificación más importante que existe es una buena formación y una amplia cultura general.