Capítulo 12
Arboles jerárquicos, o de clasificación, y la dimensión

El grueso de este Ensayo está dedicado a objetos concretos que se pueden ver y tocar, independientemente de que sean de origen natural (Capítulos 2 a 10) o artificial (Capítulo 11). Por el contrario, este último capítulo se refiere a algo más abstracto, a saber, las estructuras matemáticas de árbol ponderado regular. Hay varias razones para alejarse ahora de los objetos «reales». La primera es que el razonamiento sigue siendo sencillo, y contribuirá, según creo, a aclarar un nuevo aspecto del concepto de dimensión de homotecia, aspecto que se habrá empobrecido al perder toda base geométrica, con lo que, de alguna manera se habrá hecho «irreducible». La segunda razón para estudiar los árboles en cuestión es que aparecen enseguida en varias aplicaciones.

Arboles lexicográficos. Ley de las frecuencias de las palabras (Zipf-Mandelbrot)

Vamos a examinar de entrada unos árboles capaces de clasificar las palabras del léxico. De sus propiedades deduciremos una ley teórica «óptima» de las frecuencias de las palabras, que, por una parte, resultará representar la realidad de una manera excelente, y por la otra, invocará una dimensión fractal. Definiremos el léxico como el conjunto de las sucesiones de letras que se pueden admitir como palabras. Estas últimas estarán separadas por espacios en blanco que, por comodidad, supondremos que indican el principio de cada palabra.

Construyamos para representarlo el árbol siguiente: el tronco representa el espacio en blanco; se subdivide en N ramas de primer nivel, correspondiendo cada una de ellas a una de las letras del alfabeto; cada rama se subdivide a su vez en N ramas de segundo nivel, y así sucesivamente. Está claro que cada palabra puede ser representada por una de las ramificaciones del árbol, y que a cada ramificación se le puede asignar un peso, a saber, la probabilidad de empleo de la palabra correspondiente (cero para las sucesiones de letras que no son admisibles como palabras).

Antes de examinar los árboles lexicográficos reales, veamos qué ocurre si la codificación de las palabras por medio de letras y espacios en blanco es óptima, en el sentido de que el número medio de letras es el menor posible. Tal sería el caso si, en un sentido que aquí sería pesado de explicar con detalle, las frecuencias de las palabras se «adaptan» a la codificación de letras y espacios en blanco. He demostrado (en unos trabajos que empezaron en 1951 y que están resumidos en Mandelbrot 1965z, 1968p, entre otros) que para ello es necesario que el árbol lexicográfico sea regular, en el sentido de que cada ramificación (hasta un nivel máximo finito) corresponda a una palabra, y que los pesos-probabilidad correspondientes al nivel k sean todos de la forma U = U0rk. El factor U0 —que no explicitaremos— garantiza que la suma total de los pesos-probabilidad sea igual a 1.

A fin de deducir la distribución de frecuencias de las palabras a partir de la regularidad del árbol, ordenemos las palabras según frecuencias decrecientes (si hay varias frecuencias iguales, las ordenaremos arbitrariamente). Sea ρ el rango que tiene en esta clasificación una palabra de probabilidad P. Veremos dentro de poco que, cuando el árbol lexicográfico es regular, se tiene aproximadamente que:

U = P(ρ + V)−1/D

e inversamente:

ρ = −V + U−DPD

con P, V y D constantes. Esta fórmula, que he obtenido mediante un razonamiento analítico, resulta ser una generalización de una fórmula empírica divulgada por Zipf 1949 (véase el Capítulo 15); representa excelentemente los datos empíricos acerca de las frecuencias de las palabras en los idiomas más diversos. Cuando hayamos deducido esta fórmula a partir de la hipótesis de que el árbol lexicográfico es regular, discutiremos brevemente su significado. Observemos ahora mismo, sin embargo, que D, el parámetro más importante de esta fórmula, será definido como

D = log N/log (1/r),

que formalmente es, por lo tanto, una dimensión. Dicho esto, midamos la riqueza del vocabulario por la frecuencia de uso relativa de las palabras raras, por la relación entre la frecuencia de la palabra de rango 100 y la de la de la palabra de rango 10, pongamos por caso. Para N constante, dicha riqueza aumenta con r. En otras palabras, cuanto mayor es la dimensión D, mayor es r, es decir, mayor es la riqueza del vocabulario.

Una vez admitida la regularidad del árbol de clasificación, me ha sido fácil demostrar la ley de Zipf generalizada; basta con notar lo siguiente: en el nivel k, ρ varía entre 1 + N + N2 + … + Nk−1 = (Nk − 1)/(N − 1) (que excluye el nivel k) y (Nk+1 − 1)/(N − 1) (que lo incluye). Tomando V = 1/(N − 1), e introduciendo k = log (U/U0)/log r en ambas expresiones, se tiene que

(U−DU0D) − 1 < ρ/VN(U−DU0D) − 1

El resultado enunciado anteriormente se obtiene aproximando ρ por la media de ambas cotas.

Aunque sea poco realista conjeturar que el árbol lexicográfico es regular, el razonamiento anterior sirve para establecer que la ley de Zipf generalizada corresponde a «lo que era de esperar». Esta conclusión es confirmada por un razonamiento más fino (en el que no nos detendremos), que supone que la irregularidad del árbol es, en cierto modo, uniforme.

Paréntesis: se había esperado que la ley de Zipf aportaría mucho a la lingüística, e incluso a la psicología. De hecho —desde que la he explicado— el interés ha bajado y se ha concentrado en el estudio de las desviaciones con respecto a dicha ley.

Otro paréntesis: otra interpretación del cálculo anterior lleva a considerar D como la «temperatura del habla».

Por varios conceptos, el caso D = 1 juega un papel muy especial. Para empezar, invirtamos la relación entre U y ρ. Vemos que la palabra de rango ρ tiene una probabilidad igual a P(ρ + V)−1/D. Si D ≥ 1, y por consiguiente 1/D ≤ 1, la serie ∑(ρ + V)−1/D es divergente, cosa que sólo se puede evitar si ρ es acotado, lo que significa que el vocabulario consta de un número finito de palabras.

Por el contrario, si D < 1, el léxico puede muy bien ser infinito. En este caso, U0 vale 1 − Nr y satisface que U0 < 1. Se puede pues interpretar U0 como la probabilidad del espacio en blanco, y r como la probabilidad de una de las letras propiamente dichas; la probabilidad U0rk se interpreta entonces como el producto de las probabilidades del espacio en blanco y de las letras que componen la palabra en cuestión. Dicho de otro modo, el caso en que D < 1 y el léxico es infinito, se interpreta del modo siguiente: tomemos una sucesión infinita de letras y espacios en blanco estadísticamente independientes, y utilicemos estos últimos para descomponer en palabras dicha sucesión. Las probabilidades de éstas seguirán la ley de Zipf generalizada.

Segundo papel de D = 1: en el caso D < 1, y sólo en este caso, el árbol lexicográfico puede ser reinterpretado geométricamente. Para ello, tomemos el segmento [0,1] y descompongámoslo en N segmentos de la forma

[0,r], [r + (1 − Nr)/(N − 1), 2r + (1 − Nr)/(N − 1)], …, [(N − 1)r + (1 − Nr), 1]

y hagamos corresponder cada segmento al conjunto de las palabras que empiezan por una letra dada. A continuación, descompongamos cada uno de estos N segmentos en otros N, deducidos de los anteriores por una homotecia de razón 1/N, y hagamos corresponder cada uno de éstos al conjunto de las palabras que empiezan por una secuencia dada de dos letras, etc. De esta manera, cada palabra corresponde al resto constituido por una reunión de N − 1 segmentitos abiertos. El complemento de todos los conjuntos de esta forma es un conjunto cantoriano, cuya dimensión resulta ser igual a D. De esta manera, se puede interpretar la dimensión de un modo correcto. Por el contrario, si D > 1, una interpretación como la anterior es imposible, puesto que el léxico ha de ser finito, y un conjunto fractal sólo se puede obtener mediante una construcción infinita.

Arboles jerárquicos, y distribución de la renta salarial (ley de Pareto)

Un segundo ejemplo de árbol, quizás aún más sencillo que el anterior, se encuentra en los grupos humanos jerarquizados. Diremos que una jerarquía es regular si sus miembros están distribuidos por niveles, de tal manera que, excepto en el nivel inferior, cada miembro tiene el mismo número N de subordinados; y que estos últimos tienen todos el mismo «peso» U, igual a r veces el peso de su superior inmediato. Lo más cómodo es considerar el peso como si se tratase de un salario. (Obsérvese que las rentas no salariales no comportan ninguna jerarquía susceptible de ser representada por un árbol, con lo que no pueden introducirse como pesos en el presente argumento). Más aún, si hay que comparar diversas jerarquías desde el punto de vista del grado de desigualdad que implican en la distribución de las rentas, parece razonable ordenar sus miembros por rentas decrecientes (en el interior de cada nivel, la clasificación se hará de manera arbitraria), designar cada individuo por su rango ρ, y dar la renta en función del rango. Cuanto más deprisa decrece la renta al aumentar el rango, tanto mayor es el grado de desigualdad. El razonamiento utilizado anteriormente para las frecuencias de las palabras se aplica exactamente igual, probando que el rango p del individuo de renta U viene dado aproximadamente por la fórmula hiperbólica ρ = −V + U−DPD.

Esta relación muestra que el grado de desigualdad es determinado, ante todo, por la D de homotecia, D = log N/log(1/r): cuanto mayor es la dimensión, mayor es r, y por lo tanto, menor es el grado de desigualdad.

Se puede generalizar ligeramente este modelo suponiendo que la U varía entre los distintos individuos de un mismo nivel k, siendo igual al producto de rk por un factor aleatorio, el mismo para todo el mundo y que tenga en cuenta, por ejemplo, efectos tales como la antigüedad. Esta generalización modifica las expresiones que dan los parámetros V y P, pero deja D invariante. Desde el punto de vista empírico, la distribución de las rentas es claramente hiperbólica, cosa que se conoce como «ley de Pareto», y la demostración anterior, debida a Lydall 1959, constituye una posible explicación de la misma.

Subrayemos, no obstante, que la misma ley de Pareto se aplica también, aunque con un D distinto, a las rentas de la especulación. Esta observación plantea un problema completamente distinto, que he atacado en Mandelbrot 1959p, 1960i, 1961e, 1962e, 1963p, y 1963e.

Observemos que el D empírico es normalmente próximo a 2. Cuando vale exactamente 2, la renta de un superior es igual a la media geométrica de la del conjunto de sus subordinados, y de la de cada uno de sus subordinados tomado separadamente. Si fuera D = 1, dicha renta sería igual a la suma de las de sus N subordinados.

Acabemos con un despropósito. Independientemente de cuánto valga D, el número de niveles jerárquicos crece como el logaritmo del número total de miembros de la jerarquía. Si se desea dividirlos en dos clases, una manera intrínseca de hacerlo podría consistir en fijar el punto de separación en el nivel jerárquico medio; en tal caso, el número de miembros de la clase superior sería proporcional a la raíz cuadrada del número total. Hay muchas otras maneras de obtener esta «regla de la raíz cuadrada»; aparece, por ejemplo, asociada al número ideal de los representantes que distintas comunidades deberían enviar a un Parlamento en el que participan.