En su libro Suicide, el sociólogo francés Emile Durkheim demostró que la incidencia del suicidio en una zona se puede predecir razonablemente sólo en base a los datos demográficos. Análogamente, la tasa de desempleo se puede estimar basándose en muestreos (y otros varios índices económicos). En realidad, muchas predicciones sociológicas y económicas son independientes de las ideas y principios psicológicos y se basan en buena medida en razones probabilísticas. Aunque los sucesos concretos sean difícilmente pronosticables (quién se va a suicidar o quién se quedará sin empleo), los conjuntos grandes de sucesos son en general fáciles de describir de antemano. Muy en líneas generales, esto es lo que sugieren dos de los resultados teóricos más importantes de la teoría de la probabilidad y la estadística. (Véanse también las entradas sobre Media, Correlación y Probabilidad).
Concretando un poco más, la ley de los grandes números dice que la diferencia entre la probabilidad de un cierto suceso y la frecuencia relativa con que se produce tiende necesariamente a cero. En el caso de una moneda no cargada, por ejemplo, la ley, descubierta por el matemático suizo Jakob Bernouilli en un trabajo póstumo que fue publicado en 1713, nos dice que se puede demostrar que la diferencia entre 1/2 y el cociente del número de caras entre el total de lanzamientos se hace arbitrariamente pequeña si aumentamos indefinidamente el número de éstos.
No hay que entender esto como que la diferencia entre los números totales de caras y de cruces irá disminuyendo cada vez más a medida que aumente el número de lanzamientos; normalmente ocurre precisamente todo lo contrario. Si se lanza una moneda 1.000 veces y otra 1.000.000 de veces, probablemente el cociente del número de caras entre el de lanzamientos sea mucho más próximo a 1/2 en el segundo caso, a pesar de que la diferencia entre los números de caras y cruces sea también mayor. Las monedas no trucadas se comportan bien en el sentido relativo de los cocientes, pero no en sentido absoluto. Y, contra lo que suponen muchos sabios de salón, la ley de los grandes números no implica la falacia del jugador: que es más fácil que salga cara después de una tira ininterrumpida de cruces. No lo es.
Entre otras creencias justificadas por esta ley tenemos la confianza del experimentador en que la media de un conjunto de medidas de una cierta cantidad se aproximará más al valor real de ésta cuanto mayor sea el número de mediciones. También es la base de la observación razonable de que si se tira un dado N veces, la probabilidad de que la frecuencia con que aparece el 5 sea distinta de 1/6 disminuye al aumentar N. Al igual que el dado, nosotros, considerados individualmente, tampoco somos predecibles, pero tomados colectivamente sí. La ley de los grandes números sirve de base teórica a la idea intuitiva de que la probabilidad es la guía del mundo. Las clasificaciones de Nielsen en televisión, las encuestas Gallup, las tarifas de seguros y un sinfín de estudios sociológicos y económicos ponen de manifiesto una realidad probabilística más confusa que la de las monedas y los dados, pero no menos auténtica.
La otra ley que quiero esbozar aquí se llama teorema central del límite, y dice que la media o la suma de una gran colección de medidas de una magnitud dada cualquiera es descrita por una distribución o curva normal en forma de campana (también llamada a veces curva gaussiana en honor del gran matemático del siglo XIX Karl Friedrich Gauss). Esto ocurre aunque la propia distribución de las medidas individuales no sea normal.
Para ilustrar esto último, imaginemos una fábrica que produce disqueteras para ordenador, y supongamos que el director es un chapucero subversivo que garantiza que aproximadamente el 30% de las disqueteras se estropeen en tan sólo 5 días y que el 70% restante tarden unos 100 meses en fallar. Está claro que la distribución de las vidas de estas disqueteras no obedece a una curva normal, sino a una curva en forma de U con dos picos, uno a los 5 días y otro mayor a los 100 meses.
Supongamos ahora que las disqueteras salen de la línea de montaje en un orden aleatorio, en cajas de 36. Si nos entretuviéramos en calcular la vida media de las disqueteras de una caja, encontraríamos que es de unos 70 meses, quizá 70,7. ¿Por qué? Si determinamos la vida media de las disqueteras de otra caja de 36, encontraremos de nuevo una vida media de aproximadamente 70 meses, quizá 68,9. De hecho, si examinamos muchas cajas, la media de las medias será muy próxima a 70, y lo que es más importante aún, la distribución de estas medias será aproximadamente normal (en forma de campana), con el porcentaje adecuado de cajas con vidas medias entre 68 y 70, entre 70 y 72, etc.
Teorema central del límite
El teorema central del límite dice que en una gran mayoría de casos esta situación es la que cabe esperar: que las medias y las sumas de cantidades, que no tienen por qué estar normalmente distribuidas, siguen una distribución normal.
La distribución normal aparece también en el proceso de medida porque las medidas de una magnitud o una característica cualquiera tienden a tener una «curva de error», con forma de campana normal centrada en tomo al verdadero valor de dicha magnitud. Otras cantidades que suelen tener una distribución normal podrían ser las alturas y pesos para una edad específica, el consumo de gas natural de una ciudad en cualquier día dado de invierno, los grosores de piezas, los CI (independientemente de lo que puedan indicar), el número de ingresos en un gran hospital en un día determinado, las distancias de los dardos a la diana, los tamaños de las hojas, de las narices o el número de pasas contenidas en una caja de cereales para el desayuno. Todas estas cantidades se pueden considerar como medias o sumas de muchos factores (genéticos, físicos o sociales) y, por tanto, su distribución normal se basa en el teorema central del límite. Repito, las medias o sumas de una cantidad tienden a estar normalmente distribuidas, aun cuando las cantidades que se promedian (o suman) no lo estén.