38
Cambios de escala y leyes potenciales sin geometría

Si alguna vez se llegan a escribir monografías o libros de texto sobre fractales, la discusión de las figuras geométricas aleatorias, que es delicada desde el punto de vista matemático, irá precedida por el tema, menos difícil, de las funciones aleatorias. El texto empezará tratando las variables aleatorias. En cambio, este ensayo entra de forma inmediata en el tema más complicado, pues es el más interesante y da rienda suelta a la intuición geométrica.

Las distribuciones de probabilidad hiperbólicas son parientes muy próximas de los fractales. En capítulos anteriores hemos encontrado muchos ejemplos de su aplicación, empezando por las funciones hiperbólicas Nr(U>u). Pero aún queda mucho por decir. Este capítulo empieza con algunos comentarios generales y prosigue con ciertos fenómenos de la lingüística y la economía en los que los datos empíricos, abundantes y sólidos, se representan bien por medio de leyes hiperbólicas. El argumento es en ambos casos el mismo, destacando el carácter escalante y la dimensión de semejanza en unas formas totalmente «descarnadas».

El ejemplo lingüístico fue el objeto de mi primer artículo (capítulo 42). Me puso al corriente de ciertas manipulaciones simples que tienen una aplicabilidad general. Este ejemplo tiene también una faceta termodinámica, en la que interviene mi descubrimiento independiente de un análogo de temperatura negativa.

Más acerca de las distribuciones hiperbólicas

Según una definición que ya conocemos, una variable aleatoria (v.a.) es hiperbólica cuando P(u) = Pr(U>u) = Fu−D. Esta definición es un tanto extraña, por cuanto cualquier prefactor finito a lleva a P(0) = ∞, cosa que parece absurda y deja claro que hay que andarse con mucho cuidado (como ya sabemos bien). Veíamos en el capítulo 12, por ejemplo, que cuando un generador de Koch contiene una isla la curva resultante contiene una infinidad de ellas, siendo Nr(A>a) = Fa−B el número de islas de área mayor que a. Clasifiquémoslas de mayor a menor, ordenando arbitrariamente las islas de igual área. Escoger una isla al azar con probabilidad uniforme equivale a escoger al azar su lugar en esta ordenación. Si se lograra esto, podríamos sustituir Nr(A>a) por Pr(A>a). Pero, de hecho, el lugar de una isla es un entero positivo, y no es posible escoger al azar un entero positivo.

Y otra historia conocida: la distribución hiperbólica nos lleva directamente a las distribuciones condicionales. Por ejemplo, la v. a. condicional {U, sabiendo que U>u0}, que se escribe {U|U>u0}, cumple

Paradojas de la esperanza

Cuando D > 1, la esperanza correspondiente es

U|U>u0〉 = D(D − 1)−1u0

Este resultado sugiere un sinfín de situaciones paradójicas. Recomiendo encarecidamente a los lectores cuerdos que se salten esta sección.

EL EFECTO LINDY. El porvenir esperado de un cómico de televisión es proporcional a lo que se haya dejado ver en el pasado. Fuente: The New Republic del 13 de junio de 1964.

La siguiente historia nos puede dar la clave de la afirmación anterior.

PARÁBOLA DEL CEMENTERIO DE LOS POETAS JÓVENES. En la parte más melancólica del cementerio, entre las tumbas de los poetas e intelectuales muertos inesperadamente en la flor de la juventud, cada monumento está coronado por un símbolo de la pérdida: un libro, una columna o un instrumento a medio terminar. El anciano sepulturero, que en su juventud también fue intelectual y poeta, recomienda a los visitantes que tomen estos símbolos funerarios absolutamente al pie de la letra: «Todos los que aquí reposan», dice, «habían llegado lo bastante lejos como para ser considerados grandes promesas, y la grandeza de algunos de los monumentos refleja el talento de aquéllos cuyos restos cobijan. Pero ¿cómo podemos valorar sus malogradas promesas? Algunos de los que están a mi cargo podrían haber vivido para desafiar a Leonhard Euler o Victor Hugo en cuanto a fecundidad, si no en cuanto a genio. Pero la mayoría de ellos, ay, estaban a punto de ser abandonados por las Musas. Dado que en la juventud las promesas y el talento son precisamente iguales, debemos considerarlos iguales en el momento de la muerte repentina».

La clave. CUALQUIERA QUE MUERE JOVEN MUERE EN MITAD DE UNA CARRERA PROMETEDORA. «Demostración». De acuerdo con A. Lotka, la distribución del número de artículos científicos producidos por cualquier autor dado es hiperbólica con exponente D = 2. Esta ley incorpora el hecho cualitativo de que la mayoría de personas escriben nada o muy poco, mientras que unos pocos escriben una barbaridad. Si es así, por larga que sea la obra total anterior de una persona, en promedio continuará hasta alcanzar un volumen igual en el futuro. Y cuando al final se detenga, lo hará precisamente en la mitad de lo que prometía.

Comentarios. La única manera de evitar esta aparente decepción es hacerse tan viejo que se deban considerar las correcciones de edad en el cálculo de las expectativas de futuro. El coeficiente de proporcionalidad del efecto Lindy es sin duda igual a 1.

PARÁBOLA DE LA PLAYA QUE RETROCEDE. Lejos, muy lejos, hay un país llamado Tierra de los Diez Mil Lagos, que se conocen por los apelativos cariñosos de Mayor, Segundo en tamaño,…, N-ésimo en tamaño, etc., hasta 10.000-ésimo. Mayor es un mar inexplorado o, mejor dicho, un gran océano de por lo menos 1.600 millas de ancho, la anchura de N-ésimo es 1.600N−0,8, de manera que el menor tiene 1 milla de ancho. Pero cada lago está siempre cubierto de una neblina que no permite ver más allá de una milla para hacerse una idea de su anchura. La tierra no está señalizada y tampoco hay lugareños que puedan ayudar al viajero. Un viajero que se encuentre en una playa desconocida y crea en la esperanza matemática, sabe que tiene ante sí un brazo de agua de 5 millas de anchura esperada. Si navega un número m de millas, se encuentra con que todavía no ha llegado a su meta y vuelve a calcular la distancia esperada a la orilla opuesta, obteniendo el valor 5m. ¿Están esos lagos habitados por espíritus que realmente se llevan la playa cada vez más lejos?

La clave. La distribución anterior de las anchuras de los lagos no es más que una reformulación de la distribución de Korčak que nos encontramos en los capítulos 12 y 30.

Distribuciones de probabilidad escalantes

Volvamos ahora a cuestiones más serias. Para poder hablar de variables aleatorias escalantes, hay que redefinir el término escalante sin recurrir a la geometría. Ello se debe a que la única figura geométrica asociada a una variable aleatoria es un punto, que no se puede subdividir. En su lugar, diremos que una variable aleatoria X es escalante por la transformación T(X) si las distribuciones de X y T(X) son idénticas salvo cambios de escala.

Aquí transformación se entiende en un sentido amplio: por ejemplo, la suma de dos realizaciones independientes de X se considera una transformación de X. Las variables correspondientes se deberían llamar escalantes por adición, pero se denominan estables según Lévy (capítulos 31, 32 y 39). En el capítulo 39 se tratan las variables escalantes por adición ponderada.

ESCALANTES ASINTÓTICOS; V. A. ASINTÓTICAMENTE HIPERBÓLICAS. Afortunadamente, la definición anterior es menos indeterminada de lo que pudiera parecer. Para muchas transformaciones, resulta que la invariancia implica una distribución asintóticamente hiperbólica. Esto significa que debe existir un exponente D > 0 tal que

limu→∞Pr(U<u)uD y limu→∞Pr(U>u)uD

están definidos, son finitos y uno de ellos es positivo.

DISTRIBUCIÓN DE PARETO. «Asintóticamente hiperbólica» se puede considerar sinónimo de paretiana, que es una expresión familiar para quienes trabajan en economía estadística. Vilfredo Pareto fue un economista italiano que pretendía traducir las leyes mecánicas del equilibrio al terreno de la economía, pero es probable que se le recuerde más por haber descubierto una regularidad estadística fundamental: encontró que en ciertas sociedades el número de individuos con unos ingresos personales U por encima de un valor grande u sigue aproximadamente una distribución hiperbólica, esto es, proporcional a u−D. (Volveremos sobre la distribución de ingresos más adelante en este mismo capítulo).

«Nuevos métodos de la economía estadística» (Mandelbrot, 1963e)

Posteriormente, en muchos campos de la economía se descubrieron otras leyes hiperbólicas semejantes a la de Pareto, y se han dedicado muchos esfuerzos a explicar esta frecuencia. Describamos de entrada un enfoque herético de este problema.

Un campo como la economía no puede olvidar nunca que sus «datos» son terriblemente confusos. Y por tanto su distribución es el resultado conjunto de una «distribución verdadera» subyacente fija y de un «filtro» sumamente variable. Mandelbrot (1963e) observa que las distribuciones asintóticamente hiperbólicas con D < 2 son muy «robustas» en este aspecto, en el sentido de que una gran variedad de filtros dejan invariante su comportamiento asintótico. Por otra parte, prácticamente todas las demás distribuciones son sumamente poco robustas. Por tanto, una distribución hiperbólica verdadera puede observarse de modo consistente: distintos conjuntos de datos sugieren la misma distribución con la misma D. En cambio, el mismo tratamiento aplicado a la mayoría de las demás distribuciones da resultados «caóticos» e incompatibles. En otras palabras, la alternativa práctica a las distribuciones asintóticamente hiperbólicas no es otra que el caos. Como los resultados caóticos no suelen publicarse ni reseñarse, no es raro que las distribuciones asintóticamente hiperbólicas estén muy difundidas, pero este hecho no nos dice gran cosa acerca de su predominio real en la naturaleza.

La ley de Zipf de las frecuencias de palabras

Una palabra es sólo una sucesión de letras propias acabada en una letra impropia llamada espacio. Ordenamos las palabras de un texto por orden decreciente según su frecuencia en una muestra del habla de una persona, asignando un orden arbitrario a las palabras de la misma frecuencia. En esta clasificación, ρ designa el lugar ocupado por una palabra de probabilidad P, y llamaremos distribución de frecuencias de palabras a la relación entre ρ y P.

Uno podría esperar que esta relación variara sin ton ni son según el idioma y el orador, pero en realidad no es así. Una ley empírica divulgada en 1949 por Zipf (en el capítulo 40 se dan más detalles de G. K. Zipf) afirma que la relación entre ρ y P es «universal», esto es, independiente de otros parámetros, y tiene la forma P ∝ 1/ρ.

En una segunda aproximación, que obtuve teóricamente en un intento infructuoso de derivar la ley anterior, todas las diferencias entre idiomas y oradores se reducen a

P = F(ρ + V)−1/D.

Como ∑P = 1, los tres parámetros D, F y V satisfacen la relación F−1 = ∑(ρ + ν)−1/D.

Los tres parámetros juntos miden la riqueza de vocabulario del orador.

El parámetro principal es D. Una manera razonable de medir la riqueza de vocabulario de un sujeto se podría basar en la frecuencia relativa del uso de palabras raras; por ejemplo, la frecuencia de la palabra del lugar ρ = 1.000 relativa a la de la palabra del lugar ρ = 10. Dicha frecuencia relativa aumenta con D.

¿Por qué la ley anterior presenta esa universalidad? Pues porque es casi perfectamente hiperbólica, y asumiendo todo lo aprendido a lo largo de este ensayo, es sumamente razonable tratar de relacionar la ley de Zipf con alguna propiedad escalante más profunda. (El procedimiento no parecía nada evidente en 1950, cuando abordé el tema por primera vez). Como sugiere la propia notación, el exponente juega el papel usual de una dimensión. El prefactor F (recuérdese el capítulo 34) ocupa el segundo puesto en importancia.

Arboles lexicográficos

En el caso que nos ocupa, existe también un «objeto» que puede ser escalante: se trata de un árbol lexicográfico. Primero lo definiremos y explicaremos qué se entiende en este contexto por escalante. Luego demostraremos que, cuando el árbol lexicográfico es escalante, las frecuencias de las palabras siguen la anterior ley biparamétrica. Discutiremos la validez de la explicación y luego justificaremos la interpretación de D como dimensión.

ARBOLES. Un árbol lexicográfico tiene N + 1 troncos, numerados de 0 a N. El primero corresponde a la «palabra» constituida por la letra impropia «espacio» sola, y los N restantes a cada una de las letras propias. El tronco «espacio» es estéril, pero cada uno de los troncos restantes tiene N + 1 vástagos correspondientes al espacio y a las N letras propias. En la siguiente generación, el tronco del espacio es estéril y los demás se ramifican en N + 1 como antes. De este modo, la punta estéril de cada espacio corresponde a una palabra formada por letras propias seguidas de un espacio. La construcción continúa indefinidamente. Cada punta estéril se inscribe con la probabilidad de la palabra correspondiente. Y la punta de una rama no estéril con la probabilidad total de las palabras que empiezan por la sucesión de letras que dicha rama determina.

ARBOLES ESCALANTES. Se dice que un árbol es escalante cuando cada rama por sí sola es en cierto modo una réplica a menor escala del árbol entero. Truncar ese árbol es, casi literalmente, cortarle una rama. Nuestra primera conclusión, pues, es que un árbol escalante debe ramificarse sin límite. En particular, y en contra de lo que nos dictaría una intuición inexperta, el número total de palabras distintas no da una medida acertada de la riqueza del vocabulario. (Casi todo el mundo «conoce» muchísimas más palabras de las que usa; tantas, que su vocabulario es prácticamente infinito.) Otro argumento (que dejaremos de lado) determina la forma que debe observarse para la probabilidad P de una rama estéril en el k-ésimo nivel, esto es, que crece por encima de k niveles vivos.

OBTENCIÓN DE LA LEY DE ZIPF GENERALIZADA EN EL CASO MÁS SIMPLE. (Mandelbrot 1951, 1965z, 1968p.) El árbol escalante más simple corresponde a un discurso consistente en una sucesión de letras estadísticamente independientes, siendo r < 1/N la probabilidad de cada letra propia, y (1 − Nr) la de la letra impropia o «espacio». En este caso, el k-ésimo nivel tiene las propiedades siguientes

P = (1 − Nr)rk = P0rk

y ρ varía entre la cota

1 + N + N2 + … + Nk−1 (Nk − 1)/(N − 1)

(excluida) y la cota

(Nk+1 − 1)/(N − 1)

(inclusive). Escribiendo

D = log N/log(1/r) < 1 y V = 1/(N − 1),

e introduciendo

k = log(P/P0)/log r

en cada cota, obtenemos

P−DP0D − 1 < ρ/V ≤ N(P−DP0D) − 1

El resultado que buscamos se obtiene aproximando p por la media de ambas cotas.

GENERALIZACIÓN. Otros árboles escalantes menos simples corresponden a sucesiones de letras generadas por otros procesos aleatorios estacionarios, como por ejemplo cadenas markovianas, que luego se descomponen en palabras por las recurrencias del espacio. El razonamiento es más complejo (Mandelbrot, 1955b), pero el resultado final es el mismo.

VICEVERSA. ¿Se puede deducir de los datos de Zipf, por un razonamiento inverso, que el árbol lexicográfico formado con letras ordinarias es escalante? No, por supuesto: muchas sucesiones cortas de letras nunca se dan y, en cambio, muchas sucesiones largas son bastante corrientes, con lo que los árboles lexicográficos reales distan mucho de ser estrictamente escalantes, aunque genéricamente se cree que el argumento anterior basta para entender por qué la ley de Zipf generalizada es válida. Habría que mencionar también que en un principio se esperaba que la ley de Zipf fuera una gran contribución a la lingüística, pero mi explicación demuestra que, por lo que respecta a dicha disciplina, dicha ley es muy superficial.

▯ La ley de Zipf generalizada también es válida para ciertos vocabularios restringidos. Por ejemplo, la esotérica disciplina intitulada hagioantroponimia, que investiga el empleo de nombres de santos como nombres de personas (Maître 1964), establece que la ley de Zipf vale para dichos nombres. Tesnière (1975) encuentra que también vale para los apellidos en general. ¿Sugiere esto que los árboles correspondientes son escalantes? ▮

D ES UNA DIMENSIÓN FRACTAL. La nueva observación de que D es formalmente una dimensión de semejanza no es tan superficial como se podría temer. En efecto, colocando delante un cero y una coma, una palabra, tal como la hemos definido no es más que un número comprendido entre 0 y 1, expresado en la base de numeración (N + 1), que no contiene ningún cero excepto al final. Sitúense dichos números en el intervalo [0, 1] y añádanse al conjunto los puntos límite. La construcción equivale a eliminar todos los números que contengan la cifra 0 en un lugar distinto del final. Se obtiene así un polvo de Cantor cuya dimensión fractal es precisamente D.

En cuanto a los otros árboles lexicográficos, no tan simples, a los que hemos aludido para generalizar la demostración de la ley de Zipf, también corresponden a polvos de Cantor generalizados de dimensión D. La ecuación de D en Mandelbrot (1955b) es una generalización matricial de la definición NrD = 1 para la dimensión de semejanza.

NUEVA GENERALIZACIÓN: EL CASO D > 1. Curiosamente, la condición D < 1 no se satisface de manera universal. Los casos en los que la ley de Zipf generalizada se cumple con una D estimada mayor que 1, aunque raros, son incuestionables. A fin de describir el papel del valor especial D = 1, supongamos que la ley P = F(ρ + V)−1/D sólo vale hasta ρ = ρ* ≤ ∞. Si D < 1, los diccionarios infinitos sugeridos por el razonamiento teórico no plantean ningún problema. Pero para D ≥ 1 la serie infinita ∑(ρ + V)−1/D es divergente. Por tanto, para que ∑P = 1 y F > 0 es necesario que ρ* < ∞; el diccionario sólo puede contener un número finito de palabras.

Resulta, en efecto, que D > 1 sólo se da en aquellos casos en que el vocabulario está restringido a unos límites impuestos por medios artificiales y extraños (p. e., fragmentos latinos insertos en textos no latinos). En mis artículos sobre este tema se discuten estos casos especiales. Como una construcción que se limita a un número finito de puntos nunca da un fractal, D > 1 no se puede interpretar como dimensión fractal.

La temperatura del discurso

Las deducciones anteriores permiten una segunda interpretación muy distinta, diseñada según la termodinámica estadística. Los homólogos de la energía y la entropía físicas son un coste del cifrado y la información de Shanon. Y D es la «temperatura del discurso». Cuanto más «caliente» es el discurso, mayor es la probabilidad de uso de palabras raras.

El caso D < 1 corresponde al caso estándar en que el equivalente formal de la energía no está acotado superiormente.

Por el contrario, el caso en que las palabras son tan «calientes» que llevan a D > 1 implica la imposición sumamente inusual de una cota superior finita para la energía.

Poco tiempo después de que yo describiera esta clara dicotomía en términos de estadística del lenguaje, se descubrió de forma independiente un equivalente físico del mismo. La temperatura física inversa 1/θ es mínima —se anula— cuando el cuerpo está más caliente. Y Norman Ramsey se dio cuenta de que, si el cuerpo debe calentarse más aún, 1/θ tiene que hacerse negativa. Véase Mandelbrot (1970p) para una discusión de este paralelismo.

La termodinámica deduce las propiedades macroscópicas de los cuerpos a partir de la equiprobabilidad microcanónica. Como las moléculas no se conocen individualmente, las hipótesis sobre sus posibles estados despiertan poca emoción. Sin embargo, sí tenemos un conocimiento individual de las palabras, de manera que la hipótesis de equiprobabilidad en el estudio del lenguaje es difícil de tragar.

▯ La analogía anterior resulta particularmente natural en ciertos enfoques más generales de la termodinámica. A riesgo de insistir demasiado en artículos periféricos a esta obra, un formalismo tal se puede encontrar en Mandelbrot (1962t, 1964t). ▮

La ley de Pareto de los salarios

Otro ejemplo de árbol escalante abstracto se encuentra en los organigramas de grupos jerárquicos humanos. En la jerarquía escalante más simple, (a) sus miembros están distribuidos por niveles de manera que (excepto en el nivel inferior) cada miembro tiene el mismo número N de subordinados y (b) todos sus subordinados tienen el mismo «peso» U, el cual es igual a r < 1 veces el peso del superior inmediato. Lo más práctico es tomar dicho peso como salario.

Cuando hay que comparar varias jerarquías desde la perspectiva de la desigualdad de ingresos, uno puede clasificar sus miembros por ingresos decrecientes (siendo arbitrario el orden dentro de cada nivel), designar cada individuo por su número de orden ρ, y evaluar la tasa de disminución de los ingresos en función del número de orden, o viceversa. Cuanto más rápidamente disminuyen los ingresos al aumentar el número de orden, mayor es la desigualdad.

El formalismo usado para la ley de Zipf vale aquí sin necesidad de introducir ningún cambio: el número de orden ρ de un individuo cuyos ingresos son U es aproximadamente

ρ = −V + U−DFD.

Este resultado se atribuye a Lydall (1959).

El grado de desigualdad viene dado en general por

D = log N/log(1/r),

que no parece tener ninguna interpretación fractal digna de reseñarse. Cuanto mayor es D, mayor es el valor de r y menor el grado de desigualdad.

Es posible generalizar el modelo (como en el caso de las frecuencias de las palabras) suponiendo que en un nivel k dado, el valor de U varía de un individuo a otro, de modo que U sea igual al producto de rk por un factor aleatorio, el mismo para todos. Esta generalización modifica los parámetros V y P0, y por tanto la D, pero deja invariable la relación fundamental.

Nótese que la D empírica es normalmente próxima a 2. En los casos en que es exactamente 2, si se representa el inverso de los ingresos en un eje vertical hacia abajo, se obtiene una pirámide exacta (base igual al cuadrado de la altura). En este caso los ingresos de un superior son la media geométrica de los ingresos totales del conjunto de sus subordinados y de los de cada uno de ellos por separado.

CRÍTICA. Cuando D = 2, el menor 1/r se da para N = 2 y es igual a 1/r = √2. Este valor parece fantásticamente alto, y sugiere que el modelo de Lydall sólo puede ser válido en jerarquías con D > 2. Si es así, el hecho de que la D global de una población sea aproximadamente 2 podría significar que las diferencias de ingresos dentro de cada jerarquía son insignificantes en comparación con las diferencias entre jerarquías y dentro de grupos que no implican ningún árbol jerárquico.

Otras distribuciones de ingresos

Un estudio más extenso de la distribución de ingresos en Mandelbrot (1960i, 1961e, 1962q) inspiró el trabajo descrito en el capítulo 37.