17

Las piedras de Rosetta[17.i]

Dos siglos y medio después de que Bayes y Laplace hubieran descubierto una manera de aplicar el razonamiento matemático a las situaciones dominadas por un alto grado de incertidumbre, su método iba viento en popa y surcaba los procelosos mares de la ciencia y de Internet, introduciéndose hasta el último rincón de nuestra vida cotidiana, eliminando las barreras lingüísticas y llegando tal vez a explicar incluso el funcionamiento de nuestros cerebros. Atrás quedaban los tiempos en que un puñado de individuos motivados se dedicaban a buscar en los orfanatos, a estudiar mensajes en clave en busca de información relevante y a organizar ejércitos de mujeres y estudiantes a fin de poder efectuar una serie de tediosísimos cálculos. Los bayesianos actuales disfrutan de los inmensos archivos de datos que alberga la Red, tienen a su alcance un gran número de programas lógicos estándar además de herramientas como las cadenas de Montecarlo de Márkov y unos ordenadores extremadamente potentes que resultan tan baratos que casi puede decirse que no constituyen un gasto digno de mención.

El fragor de la batalla que ha venido enfrentando a las fuerzas bayesianas con las frecuentistas no es ya tan intenso. El bayesianismo entendido como marco de orden general ha sido sustituido por una serie de aplicaciones y cálculos informáticos de carácter práctico. Lo que interesa a los informáticos que vinieron a sumarse hace unos años al mundillo bayesiano son los resultados, no la teoría ni la filosofía. E incluso los teóricos que en el pasado acostumbraban a insistir en la necesidad de abrazar estrictamente una serie de principios fundamentales, aceptan hoy el planteamiento que realizara John Tukey en la década de 1950: «Es mucho mejor disponer de una respuesta aproximada a la pregunta adecuada [...] que contar con una respuesta exacta a una pregunta mal planteada». Los investigadores utilizan hoy el enfoque que mejor se adapta a sus necesidades.

En este clima de cierto ecumenismo no sólo vendrían a poner fin a su larga guerra fría dos inveterados adversarios —la regla de Bayes y el enfoque probabilístico de Fisher—, sino que uno y otro, en un notable ejercicio de síntesis, darían en apoyar el advenimiento de una revolución en el campo de las técnicas vinculadas con el desarrollo de modelos. Muchas de las más recientes aplicaciones prácticas de los métodos estadísticos son consecuencia de esa tregua.

Entendido como un conjunto de cálculos y de rutinas estadísticas, el método de Bayes sigue dominado por la regla de Bayes. La palabra «Bayes» sigue llevando aparejada la doble idea —que De Finetti, Ramsey, Savage y Lindley comparten— de que la probabilidad es una forma de medir la fiabilidad de una creencia y de que puede llegar a obviar «la repetición para dar con la singularidad», por emplear las palabras del propio Lindley. Ahora bien, dicho esto, lo cierto es que la mayoría de los bayesianos contemporáneos aceptan que el frecuentismo de Fisher, Neyman y Egon Pearson continúa revelándose eficaz en la mayor parte de los problemas estadísticos, ya sea en el caso de los análisis sencillos o estándar, en el relacionado con la comprobación de lo bien que una hipótesis se ajusta a los datos recabados, o en el de un gran número de tecnologías modernas, que encuentran su fundamento en el frecuentismo —como sucede por ejemplo en el campo del aprendizaje automático.

Son también varios los frecuentistas eminentes que también han moderado su postura respecto del bayesianismo. Bradley Efron, un estadístico galardonado con la Medalla Nacional de Ciencias de los Estados Unidos que en el año 1986 publicaría un texto concebido a la manera de un alegato de defensa del frecuentismo —y convertido hoy en un clásico—, le confiaba recientemente lo siguiente a un bloguero: «Siempre he sido un bayesiano». Efron, que ha contribuido a desarrollar todo un conjunto de procedimientos empíricos de carácter bayesiano, aunque sin dejar de ser un frecuentista convencido, me dijo en una ocasión que el teorema de Bayes es «una de las ramas más importantes de la inferencia estadística [...]. Últimamente, además, los bayesianos se han vuelto más tolerantes, y los frecuentistas estamos viendo que es necesario utilizar el tipo de razonamiento propio del bayesianismo, de modo que es posible que estemos en los umbrales de una especie de convergencia».

La regla de Bayes ejerce hoy una influencia que los precursores del método jamás habrían alcanzado a imaginar. «Ni Bayes ni Laplace», comentará Robert E. Kass, de la Universidad Carnegie Mellon, «lograron comprender una de las consecuencias más relevantes del enfoque que proponían: la derivada del hecho de que la acumulación de datos determine que los observadores de mentalidad abierta terminen poniéndose de acuerdo y tiendan a coincidir en el diagnóstico de la verdad. Harold Jeffreys, el fundador moderno de la inferencia bayesiana en el ámbito de la investigación científica, no llegó a percibir la importancia que tiene el método bayesiano en la toma de decisiones. Y en los años 1960 y 1970 del siglo pasado, los frecuentistas leales a su sistema de análisis se revelaron incapaces de entender que, al final, el teorema de Bayes acabaría siendo aceptado —y no porque poseyese una lógica superior, sino porque sus modelos probabilísticos se revelan portentosamente adecuados para reproducir las variaciones que experimentan los datos del mundo real.»

La regla de Bayes también ha ampliado su radio de acción hasta el punto de abarcar en la actualidad tanto la informática como el aprendizaje automático y la inteligencia artificial. Recibe su impulso de las técnicas que lograrían desarrollar tanto los bayesianos apasionados del método en el transcurso de las décadas que se vieron obligados a pasar en el ostracismo, como los agnósticos salidos de la reciente revolución informática. El sistema de Bayes permite a quienes lo utilizan valorar el peso de las incertidumbres cuando es preciso considerar cientos o miles de modelos teoréticos. Se trata de un método cuya capacidad no se limita a permitir la combinación del imperfecto material probatorio que se obtiene al tener que recurrir a una multiplicidad de fuentes, sino que logra alcanzar un punto de equilibrio entre los modelos propuestos y los datos recabados, que facilita el análisis informático e intensivo de los datos y el aprendizaje automático, y que encuentra, como por arte de magia, pautas o estructuras sistemáticamente reiteradas y profundamente ocultas en el maremágnum de las distintas observaciones. Ha llegado a rebasar muy ampliamente los confines de la matemática y la estadística para penetrar en las altas finanzas, la astronomía, la física, la genética, el procesamiento de imágenes, la robótica, las tácticas militares, la lucha contra el terrorismo, las comunicaciones y el comercio por Internet, el reconocimiento de voz y la traducción por ordenador. Ha terminado convirtiéndose incluso en una ayuda para orientarse en el ámbito de las nuevas teorías relacionadas con el aprendizaje, así como en una metáfora de las operaciones que efectúa el cerebro humano.

Uno de los elementos sorpresivos pasa por el hecho de que la voz «Bayes», entendida como palabra de moda, haya acabado por convertirse en un vocablo distinguido. Hace algunos años, el biólogo Stephen H. Schneider, de la Universidad de Stanford, se vio de pronto aquejado por un grave cáncer. Se propuso entonces concebir un tratamiento personalizado contra el mal, consideró bayesiana la lógica empleada para conseguirlo, logró que la enfermedad remitiera y escribió un libro sobre la experiencia vivida. Stephen D. Unwin inventó una especie de «factor personal de la fe como creencia [estadística]» cifrado en un veintiocho por ciento y de ese modo consiguió elevar hasta el noventa y cinco por ciento la «probabilidad bayesiana» de que Dios exista —probabilidad que de otro modo se situaría en un sesenta y siete por ciento de posibilidades favorables—, exponiendo su planteamiento en un libro que no tardaría en convertirse en un gran éxito de ventas. Una de las expresiones que más se escuchan en la actualidad —«Hoy somos todos bayesianos»— juega con unos comentarios realizados hace años por Milton Friedman y el presidente Richard Nixon, quienes solían blandir por entonces el siguiente lema: «Hoy somos todos keynesianos». Por si fuera poco, en una película de suspense de Robert Ludlum, un agente de la Agencia Central de Inteligencia de los Estados Unidos responde de este modo a una pregunta del protagonista: «¿Suerte? Es evidente que no ha escuchado usted una sola palabra de lo que acabo de decirle. Bastaba con aplicar el teorema de Bayes para poder valorar las probabilidades condicionales. Si se ponderan adecuadamente las probabilidades a priori y...».[17.1]

Ha de admitirse que no todo el mundo comparte este entusiasmo. Hay todavía campos importantes del saber que continúan oponiéndose a la utilización de la regla de Bayes. Posiblemente la mayor ironía en este sentido venga dada por el hecho de que las distintas políticas partidistas han convertido el censo electoral de los Estados Unidos en un reducto del antiguo-bayesianismo, pese a que, en sus planteamientos, Laplace augurara que los gobiernos ilustrados no dejarían de abrazar ese método.

Los tribunales de justicia anglo-estadounidenses siguen todavía estrechamente vinculados al teorema de Bayes. Entre las pocas excepciones que cabe constatar a esta norma cabe citar la de un caso juzgado en el año 1994, en el que se emplearía el método bayesiano para demostrar que los policías de tráfico del estado de Nueva Jersey detenían preferentemente a los conductores afroamericanos en sus controles de carretera. En la década de 1990, en el transcurso de un juicio por violación, los letrados británicos intentarían enseñar, tanto a los jueces como a los miembros del jurado, la forma de valorar las pruebas disponibles utilizando la probabilística bayesiana. Los jueces llegarían a la conclusión de que el método «sumerge al jurado en una esfera teórica de una complejidad tan inapropiada como innecesaria».[17.2] Los laboratorios de ciencias forenses de Gran Bretaña y de Europa se comportan de un modo totalmente distinto. A diferencia de los Laboratorios de la Oficina Federal de Investigación estadounidense, los Servicios de Ciencias Forenses de Gran Bretaña han seguido el consejo de Lindley y emplean actualmente, y de forma muy extendida, los métodos bayesianos, valorando con ellos las pruebas físicas de que disponen. Los laboratorios radicados en el continente europeo han elaborado sistemas de medición cuantitativa para establecer el valor de varios tipos de pruebas, actuando en este sentido de un modo muy similar a Turing y a Shannon, que recurrieron en su día al teorema de Bayes para determinar las unidades de medida de la ciencia criptográfica y de los ordenadores —esto es, para concebir los bans y los bits—. La regla de Bayes —a la que en los círculos forenses se denomina discretamente la «lógica», o el enfoque de las «tasas de probabilidad»— también se ha aplicado con éxito en aquellos casos provistos de datos numéricos, fundamentalmente en la realización de los análisis de ADN tendentes a establecer la huella genética de un determinado individuo. Dado que las bases de datos relacionadas con el ADN implican probabilidades de magnitudes inimaginablemente pequeñas —del orden de una entre veinte millones, pongamos por caso, o de una entre mil millones—, es posible que los métodos bayesianos terminen por adentrarse algo más en el terreno de los tribunales de justicia.

En el año 2000, el sistema de Bayes coparía los titulares de los periódicos al venir a sumar a las pruebas relativas al ADN todo un conjunto de datos estadísticos para llegar a la conclusión de que Thomas Jefferson había tenido, casi con toda seguridad, seis hijos con su esclava Sally Hemings. Los análisis de ADN de los familiares de Jefferson y Hemings ya habían permitido obtener anteriormente sólidas pruebas de que el tercer presidente de los Estados Unidos y autor asimismo de la Declaración de Independencia era el padre del hijo menor de Hemings. Sin embargo, Fraser D. Neiman —director arqueológico de los terrenos pertenecientes a la antigua plantación de Monticello—[17.ii] se dedicaría a estudiar si los demás embarazos de Hemings vinieron a producirse o no durante alguna de las esporádicas visitas que Jefferson realizaba a la casa de Monticello, o en fechas próximas a dichas estancias. Hecho esto, Fraser comenzaría a utilizar el teorema de Bayes para cotejar los testimonios históricos anteriormente conocidos con los análisis de ADN, estableciendo igualmente toda una serie de hipótesis probables basadas en el calendario de Jefferson. Suponiendo que la probabilidad de que las pruebas a priori se revelaran ciertas era de un cincuenta por ciento en cada caso, Fraser concluyó, con una certeza casi absoluta (cifrada nada menos que en el noventa y nueve por ciento), que Jefferson era el padre de los seis hijos de Hemings.

En los ámbitos de la economía y las finanzas, la regla de Bayes interviene en un gran número de niveles, ya que aparece tanto en el campo de la matemática teorética y la filosofía como en los más pedestres y prácticos afanes de la acumulación de efectivo. El método de Bayes ocuparía asimismo un lugar destacado en los tres últimos premios Nobel concedidos en el ámbito de la economía teorética —en los años 1990, 1994 y 2004—. El primero de estos premios Nobel guardaría relación con el bayesiano italiano De Finetti, quien se anticiparía en más de una década a la obra de Harry Markowitz —ésta sí merecedora del máximo galardón de la Academia sueca—. En el año 1994, los creadores de la teoría matemática de juegos, John C. Harsanyi y John Nash (personaje este último sobre cuya biografía habría de escribirse un libro y realizarse una película —la titulada Una mente maravillosa—),[17.iii] compartirían un premio Nobel de raíz bayesiana. Harsanyi emplearía en repetidas ocasiones el teorema de Bayes para estudiar las situaciones competitivas en las que la gente no dispone sino de una información incompleta o plagada de incertidumbres, ya se trate de información relativa a otros individuos o de datos vinculados con las reglas a seguir. Harsanyi también mostraría que el equilibrio de Nash, aplicable a aquellos juegos en que la información es incompleta o imperfecta, era una variante de la regla de Bayes.

En el año 2002, lo que Bayes vendría a ganar no sería quizá un premio Nobel propiamente dicho, pero sí parte de dicho reconocimiento. Los psicólogos Amos Tversky —que falleció antes de la entrega efectiva de la distinción— y Daniel Kahneman consiguieron mostrar que la gente no toma sus decisiones ateniéndose a los procedimientos racionales que implica el teorema de Bayes. La gente responde a las preguntas de una encuesta en virtud de la manera en que aparezcan formuladas las frases de dicho estudio, habiéndose descubierto asimismo que si los médicos optan por aplicar a los pacientes que padecen cáncer una terapia basada en la cirugía o en la radiación, lo hacen en función de que los tratamientos que consultan vengan presentados en términos de mortandad o de tasas de supervivencia. Pese a que por regla general se considere que Amos Nathan Tversky es más bien un bayesiano de carácter filosófico, lo cierto es que este psicólogo acostumbraba a informar de sus descubrimientos valiéndose de los métodos frecuentistas. En una ocasión, James O. Berger, de la Universidad Duke, le preguntaría el motivo de esa preferencia y Tversky le contestaría que se trataba únicamente de una cuestión de conveniencia. En la década de 1970 resultaba bastante más difícil que ahora publicar una investigación basada en el teorema de Bayes. «Se limitó a buscar la solución más cómoda», comentaría Berger.

Alan Greenspan, ex presidente de la Reserva Federal estadounidense, ha afirmado en alguna ocasión haber recurrido a las ideas bayesianas para ponderar los riesgos de la política monetaria. En el año 2004, Greenspan confiaría a la Asociación Económica Estadounidense que, «en esencia, el enfoque que se realiza desde la gestión de riesgos al abordar las claves de la política monetaria consiste en la aplicación de los métodos de corte bayesiano que suelen emplearse para la toma de decisiones».[17.3] El público que le atendía, integrado mayoritariamente por economistas del mundo académico y por algunos miembros de los círculos gubernamentales, contuvo una exclamación ahogada, ya que son pocos los expertos en cuestiones financieras que analizan los datos empíricos valiéndose del teorema de Bayes.

Por si fuera poco, apenas unos minutos después, y sin dar tiempo siquiera a que los economistas presentes en ese mismo acto alcanzaran a recuperar el ritmo normal de la respiración, Martin Feldstein, profesor de ciencias económicas de la Universidad de Harvard, tomaba la palabra y ofrecía un cursillo intensivo de teoría bayesiana. Feldstein había sido el principal asesor económico de Ronald Reagan y presidía por entonces la Oficina Nacional de Investigación Económica de los Estados Unidos, una destacada organización investigadora. Había aprendido la teoría bayesiana en los seminarios que Howard Raiffa y Robert Schlaifer impartían en la Escuela de Negocios de Harvard en la década de 1960. Feldstein explicó a los asistentes a la conferencia de la Asociación Económica Estadounidense que el teorema de Bayes permitía a la Reserva Federal conceder un mayor peso estadístico a un riesgo de desastre económico escasamente probable que a un riesgo poco perjudicial que tuviese en cambio una elevada probabilidad de concretarse. Comparó asimismo la regla de Bayes con la situación de un hombre que se viera en la tesitura de tener que decidir si debe llevar o no el paraguas pese a que la probabilidad de lluvia sea baja. Si sale a la calle con el adminículo pero luego no llueve, lamentará el estorbo. Pero si no toma el paraguas y cae un aguacero se empapará hasta los huesos. De este modo, Feldstein llegaba a la siguiente conclusión: «Un buen bayesiano acostumbra a llevar el paraguas en muchas ocasiones, incluso en aquellos días en que finalmente no se presenta la lluvia».[17.4]

Cuatro años más tarde, un diluvio vendría a inundar los mercados financieros y el sistema bancario. Greenspan, que para entonces ya se había jubilado, abandonando la presidencia de la Reserva Federal, afirmaría ante los miembros del Congreso de los Estados Unidos que no le había sido posible prever el estallido de la burbuja de los créditos inmobiliarios ocurrido en el año 2008. No atribuiría la responsabilidad del hecho al corpus teórico que había empleado sino a los datos económicos que había manejado, los cuales, dijo, «no abarcaban por lo general sino el período correspondiente a las dos últimas décadas —un período marcado por la euforia— [en lugar de señalar] lo sucedido en los lapsos de tiempo históricos presididos por fuertes tensiones económicas».[17.5]

La pregunta es: ¿empleó efectivamente Alan Greenspan la estadística bayesiana para cuantificar los datos económicos empíricos? ¿O los conceptos bayesianos relacionados con la incertidumbre no eran más que una práctica metáfora? El ex director de la junta de gobierno de la Reserva Federal, Alan Stuart Blinder, de la Universidad de Princeton, creía que la situación se asemejaba más a lo descrito en la segunda interrogante, y lo cierto es que al manifestarlo de ese modo en el curso de una conferencia a la que asistía el propio Greenspan, éste no pondría ninguna objeción.

No obstante, y en pragmático contraste con la abstracta presencia del teorema de Bayes en las ceremonias de entrega del premio Nobel y con el carácter filosófico del papel que desempeñaba ese planteamiento en la Reserva Federal de los Estados Unidos, el método bayesiano resulta estar detrás de uno de los fondos de inversión de mayor éxito de todos los Estados Unidos. En el año 1993, la compañía Renaissance Technologies contrató a un grupo bayesiano de la IBM integrado por un conjunto de estudiosos dedicados a investigar en el campo del reconocimiento de voz y capitaneados por Peter F. Brown y Robert L. Mercer. Los miembros del grupo pasarían a encargarse de la cogestión de la cartera de clientes y de las operaciones técnicas de la empresa RenTech. Durante varios años, el Fondo Medallion de esa misma sociedad, en el que únicamente podían invertir los empleados de la firma, tanto retirados como en activo, arrojó una rentabilidad anual media del treinta y cinco por ciento aproximadamente. En el año 1997, el fondo compró y vendió acciones tan rápidamente en una única jornada que su sola actividad acabó representando más del diez por ciento del total de las transacciones del NASDAQ de ese día.

A fin de rastrear las invarianzas y los movimientos no aleatorios que le puedan ayudar a predecir el comportamiento de los mercados, la compañía RenTech trata de obtener el máximo de información posible. Comienza reuniendo el conocimiento del que dispone previamente acerca de la historia de los precios y del modo en que éstos han ido fluctuando y variando unos en función de otros. Después, la empresa pasa a realizar una constante actualización de la base establecida a priori. Así lo explicará el propio Mercer: «RenTech consigue un billón de datos al día, sacándolos de los periódicos, los teletipos de la Associated Press, el conjunto de las transacciones bursátiles y comerciales, las opiniones financieras, los partes meteorológicos, los informes energéticos, la información gubernamental, etcétera. Y todo ello con el objetivo de intentar averiguar cuál podría ser el precio de un artículo u otro en cualquier instante futuro […]. Queremos saber la evolución que habrán de experimentar los precios en un plazo de tres segundos, de tres días, de tres semanas, de tres meses […]. La información con que hoy contamos es una versión confusa de las cifras en que vendrán a situarse los precios en el transcurso de la semana que viene. La gente no se da verdadera cuenta de lo ruidoso que es el mercado. Resulta muy difícil encontrar la información, pero está ahí, y en algunos casos lleva mucho, pero que mucho tiempo ahí. Nuestras averiguaciones se parecen notablemente a los problemas complejos que se plantea la ciencia y cuya dificultad viene a asemejarse a la de buscar una aguja en un pajar».

Al igual que los inversores de RenTech, también los astrónomos, los físicos y los genetistas se sirven del teorema de Bayes para arrojar luz sobre los escurridizos fenómenos que estudian, enterrados prácticamente bajo el peso de las incógnitas que implica su análisis. Un científico puede tener que enfrentarse a centenares de miles de variables sin saber cuál es la que genera las mejores predicciones. La regla de Bayes les permite realizar una estimación de los valores más probables que podrían adoptar sus incógnitas.

Al producirse la explosión de la supernova 1987A, los astrónomos detectaron exactamente la presencia de dieciocho neutrinos. Las partículas se habían originado en las regiones más profundas de la estrella y eran las únicas pistas que podían venir a indicar algo acerca de su interior, así que los astrónomos quisieron extraer toda la información posible partiendo de tan minúsculo volumen de datos. Se solicitó a Tom Loredo, un estudiante de posgrado de la Universidad de Chicago, que tratara de averiguar qué podía llegar a saberse partiendo de esa información. Dado que la ocurrencia de una supernova constituye un caso único, resultaba imposible utilizar los métodos fundados en el frecuentismo. Loredo empezó a leer artículos de Dennis Lindley, de Jim Berger y de otros destacados bayesianos, descubriendo gracias a ellos que el teorema de Bayes podía permitirle comparar diversas hipótesis establecidas sobre la base de las observaciones realizadas y elegir después la que se revelara más probable. Su tesis doctoral, leída en el año 1990, terminaría introduciendo los modernos métodos bayesianos en el ámbito de la astronomía.

Desde entonces, el sistema de Bayes ha encontrado un cómodo hueco en la astrofísica de alta energía, la astronomía de rayos X, la astronomía de rayos gamma, la astronomía de rayos cósmicos, la astrofísica de neutrinos y el procesamiento de imágenes. En física, la regla de Bayes se emplea en la búsqueda de partículas elementales difíciles de detectar, como los neutrinos, el bosón de Higgs y los quarks cima. Todos estos problemas se asemejan por su complejidad a la búsqueda de una aguja en un pajar, de modo que Loredo —que actualmente trabaja en la Universidad Cornell— aplica el teorema de Bayes a un campo nuevo: el de la astroestadística.

De manera muy similar, los biólogos que estudian las variaciones genéticas se ven obligados a trabajar con minúsculos fragmentos de información, fragmentos que además se hallan prácticamente perdidos en el inmenso volumen de datos sin sentido y gran variabilidad que implica el estudio de los cromosomas. Los biólogos computacionales que buscan pautas genéticas, temas recurrentes, marcadores y errores de transcripción capaces de generar enfermedades han de poder detectar las débiles pero muy importantes señales que precisan estudiar, extrayéndolas del ensordecedor ruido de fondo que enmascara la información.

Susan Holmes, profesora del departamento de estadística de la Universidad de Stanford, trabaja en los campos de la biología computacional y molecular, centrándose en el estudio de los aminoácidos. Algunos de esos aminoácidos son extremadamente raros, de modo que si emplease los métodos frecuentistas tendría que asignarles un valor cero. Siguiendo la técnica criptográfica que utilizaron en su día Turing y Good en Bletchley Park, Holmes intenta descifrar el código genético asignando a los elementos que faltan una pequeña probabilidad.

Dado que el ADN de todas las células biológicas contiene las instrucciones completas que se necesitan para elaborar el íntegro conjunto de las proteínas del cuerpo, ¿qué es lo que diferencia a una célula renal de una célula cerebral? La respuesta depende de si un determinado gen está activado o desactivado y de si los genes operan juntos o no. Holmes se dedica a reunir enormes cantidades de micromatrices de datos genéticos perturbados por el ruido y otros factores de distracción capaces de ocultar un puñado de señales relevantes procedentes de los genes activados. Cada una de las micromatrices mencionadas consta de un gran número de genes dispuestos de manera regular sobre un pequeño portaobjetos de vidrio o sobre una membrana; gracias a ellos, Holmes consigue analizar simultáneamente la expresión de miles de genes.

«Es un sistema muy indirecto», indica Holmes. «[Imagínese usted que] contempla por la noche una ciudad como Toronto o París, esto es, un núcleo urbano de muy densa población provisto además de un gran número de edificios, y que, a las dos de la mañana, comienza usted a tratar de averiguar cuáles son las luces que aparecen encendidas en la totalidad de los edificios. Después, tanto a las tres como a las cuatro de la mañana, vuelve a realizar las correspondientes observaciones. De este modo termina por elaborar una pauta que le indica cuáles son las habitaciones que permanecen encendidas, y sobre esa base tiene que inferir ahora cuáles son los conocimientos que posee cada uno de los habitantes de la urbe. La señal que percibimos presenta ese grado de dispersión, así que ése es el salto inferencial que hemos de efectuar para averiguar cuáles son los genes que operan juntos. Ni siquiera contamos con la existencia de líneas de conexión telefónica entre genes. Sin embargo, la metáfora de que algo se enciende se parece un poco a la imagen de las micromatrices. Las micromatrices generan tanto ruido que el empeño parece descabellado. Todo cuanto tenemos son susurros, señales cuchicheadas, y junto a eso una enorme cantidad de ruido. Tenemos que dedicar un montón de tiempo a bucear en un océano de datos». Y como se necesita la información recabada a priori para conseguir armar las redes de relaciones entre genes, son muchas las micromatrices que se estudian de acuerdo con los métodos bayesianos.

Daphne Koller, una destacada estudiosa que enseña en la Universidad de Stanford y que se dedica a los campos de la inteligencia artificial y la biología computacional, también trabaja con micromatrices. Koller no sólo quería comprender qué genes se activaban o se desactivaban, sino también qué es lo que los controlaba y los regulaba. Al observar los niveles de actividad de los genes de la levadura, Koller alcanzó a entender la forma en que éstos se regulan. Después comenzó a estudiar las células de los ratones y los seres humanos a fin de determinar las diferencias de regulación genética que median entre las personas sanas y los pacientes afectados por un cáncer o una diabetes de tipo 2, particularmente en el caso del síndrome metabólico (que cursa con un cuadro de resistencia a la insulina).

En la controvertida cuestión de los a priori, Koller se considera una persona sosegada y poco dada a los extremismos. En cambio, los puristas bayesianos, como Michael I. Jordan, de la Universidad de Berkeley, y Philip Dawid, de Cambridge, ponen objeciones a la expresión «redes bayesianas» y juzgan que la nomenclatura que emplea Judea Pearl es una denominación poco apropiada, puesto que las redes bayesianas no siempre cuentan con a priori, y un método de Bayes sin a priori no es realmente un sistema de Bayes. Sin embargo, Koller insiste en que sus redes merecen plenamente que se las considere bayesianas, dado que pone buen cuidado en elaborar a priori para las variables que maneja.

La fascinación que producen en Koller las incertidumbres ha determinado que esta científica acabe dejando la genética para ocuparse del procesamiento de imágenes y la robótica. Es característico, por ejemplo, que las imágenes presenten una serie de rasgos variables y ambiguos incluidos en el revoltijo de información que contienen. El sistema visual humano envía diez millones de señales por segundo al cerebro, y en él mil millones de neuronas eliminan las fluctuaciones aleatorias irrelevantes y la información ambivalente a fin de revelar la forma, el color, la textura, el sombreado y los reflejos de la superficie del objeto contemplado, junto con su rugosidad y otro tipo de elementos. En consecuencia, los seres humanos disponen de la capacidad de observar una borrosa pauta de señales, distorsionada y saturada de ruido, y distinguir no obstante de manera instantánea un tomate, un coche o una oveja. Sin embargo, lo único que alcanzan a representarse los ordenadores de última generación preparados para reconocer vehículos y corderos es un conjunto de rectángulos sin sentido. La diferencia estriba en el hecho de que el cerebro humano logra integrar sus conocimientos previos en la información procedente de las nuevas imágenes.

«Es algo que le deja a una pasmada», dice Koller. El problema no reside en los soportes físicos del ordenador, la dificultad radica en elaborar el programa lógico. «No resulta excesivamente complejo enseñar a un ordenador a distinguir un desierto de un bosque, pero lograr que sea capaz de determinar dónde se encuentra la carretera y en qué punto anda ésta cerca de precipitarse por un acantilado resulta en cambio mucho más complicado».

Para indagar a fondo los detalles de estos problemas del procesamiento de imágenes, Sebastian Thrun, de la Universidad de Stanford, decidió construir un coche no tripulado al que dio el nombre de «Stanley». La Agencia de Investigación de Proyectos Avanzados de Defensa de los Estados Unidos (o DARPA, según sus siglas inglesas —«Defense Advanced Research Projects Agency»—) organizó un concurso dotado de un premio en metálico de dos millones de dólares para aquella persona que creara el mejor coche no pilotado, puesto que el ejército quería utilizar robots en los combates, en lugar de vehículos tripulados. En el año 2005, y tras realizar una hazaña que se ha convertido ya en un hito de la robótica, Stanley se alzó con el triunfo al recorrer doscientos diez kilómetros por el desierto de Nevada en siete horas.

Mientras Stanley avanzaba por la pista a cincuenta y seis kilómetros por hora, su cámara tomaba imágenes del recorrido y su ordenador de a bordo realizaba una estimación de los diversos obstáculos que iban presentándose. A medida que el robot iba sorteando las cerradas curvas y barrancos del itinerario, sin salirse por lo general del rumbo correcto, su ordenador conseguía estimar, con un noventa por ciento de probabilidades de éxito, que había en las inmediaciones un determinado muro, valorando al mismo tiempo, con una probabilidad del diez por ciento, que se hallaba cerca de una zanja de gran profundidad. De haberse dado el improbable caso de que Stanley cayese en alguna de esas zanjas, lo más probable habría sido que el vehículo hubiera quedado inutilizado. Por consiguiente, Stanley procedía un poco al modo del economista bayesiano que no renuncia a llevar consigo el paraguas en los días soleados y aminoraba la marcha para evitar una catástrofe, aunque las probabilidades de que se produjera fueran muy reducidas. Al mismo tiempo, el equipo de expertos en inteligencia artificial de Thrun se afanaba en entrenar los sensores de Stanley, introduciéndole, tanto en los desiertos como en los puertos de montaña, toda una serie de algoritmos de aprendizaje automático y diversos programas lógicos elaborados expresamente para el caso.

Thrun atribuiría el mérito de la victoria de Stanley a los filtros de Kalman. «Hasta el último tornillo del coche llevaba el sello bayesiano», sostendría Diaconis con orgullo. Terminada la carrera, Stanley se retiraría a recordar sus días de gloria en una sala creada específicamente para él en Washington, en el Museo Smithsoniano de Historia Nacional de los Estados Unidos.

Al año siguiente, un equipo bayesiano de la Universidad Carnegie Mellon que trabajaba en colaboración con la General Motors conseguiría otro premio de dos millones de dólares de la Agencia de Investigación de Proyectos Avanzados de Defensa de los Estados Unidos, al hacer evolucionar un robot entre la circulación urbana, evitando colisionar con otros coches y atendiendo a las señales de tráfico. Los responsables políticos encargados de adoptar soluciones para las ciudades tenían la esperanza de que la utilización de vehículos sin conductor pudiera resolver los problemas derivados de la congestión circulatoria. Otro equipo de la Universidad Carnegie Mellon que también optaría por confiar en la regla de Bayes y en los filtros de Kalman conseguiría ganar el campeonato internacional de fútbol robótico, una competición en la que participan sistemas multirrobóticos capaces de moverse a gran velocidad.

El ejército de los Estados Unidos se halla profundamente implicado en todo cuanto guarda relación con el procesamiento de imágenes. Sus técnicas de reconocimiento automático de objetivos (RAO) emplean de forma muy intensa los métodos bayesianos para crear elementos robóticos y equipos de guerra electrónica, así como vehículos de combate, misiles de crucero, procedimientos de aviónica avanzada, armas inteligentes y fórmulas destinadas al espionaje, la vigilancia y el reconocimiento militar. Los sistemas de reconocimiento automático de objetivos emplean radares, satélites y otro tipo de sensores para distinguir entre, por ejemplo, un camión civil y una plataforma lanzamisiles. Algunos programas de reconocimiento automático inician sus cálculos sobre la controvertida base bayesiana de unas probabilidades del cincuenta por ciento para las dos posibilidades en liza, a pesar de que este método pueda tener un fuerte impacto en los acontecimientos raros y de que sería posible obtener una información de mayor calidad. Recogiendo el testigo de las varias generaciones de críticos centrados en atacar el sistema de Bayes, hay al menos un analista especializado en las técnicas de reconocimiento automático de objetivos que considera que dicho método constituye «una afrenta, un truco facilón y perfectamente asequible. Depende de una corazonada inicial. Y sin embargo, demuestra ser una aproximación eficaz que parece resolver un gran número de problemas de la vida real. Por consiguiente, puede decirse que la regla de Bayes es un error […], salvo por el hecho de que funciona». Otros enfoques se han revelado más costosos en términos computacionales y además no generan una mejor respuesta.

Además de su implicación en los problemas relacionados con el procesamiento de imágenes, el ejército también recurre al teorema de Bayes para abordar temas vinculados con el rastreo, la comprobación de armamento y la lucha contra el terrorismo. El llamado Escudo Antimisiles de Ronald Reagan utilizaba un enfoque bayesiano para realizar el seguimiento de los misiles balísticos enemigos. Una vez que se comprobara con la suficiente solidez probabilística que se había detectado un auténtico misil, el sistema de Bayes pasaba a permitir que los sensores transmitieran sólo sus datos más recientes, en lugar de volver a calcular la totalidad del problema desde el principio en cada caso. El Consejo Nacional de Investigación de la Academia Nacional de Ciencias vendría a lanzar varios llamamientos al ejército de los Estados Unidos, instándole a recurrir a los métodos bayesianos en la comprobación de los distintos sistemas de armamento, especialmente en el caso de la gama de vehículos de asalto blindados y ligeros conocidos con el nombre de «Stryker». Son muchos los sistemas militares que no pueden someterse a prueba utilizando los métodos frecuentistas, ya que éstos requieren el empleo de muestras muy amplias. El enfoque bayesiano permite a los analistas combinar los datos recabados por medio de las pruebas con la información obtenida a partir del estudio de otros sistemas y componentes similares, cotejándolos asimismo con los resultados de las pruebas de desarrollo de material efectuadas anteriormente. Por regla general, se emplean técnicas bayesianas para valorar el riesgo que implican las potenciales amenazas terroristas. Antes incluso de que se produjeran los atentados del 11 de septiembre de 2001, la compañía Digital Sandbox, de Tysons Corner, en Virginia, ya había adquirido la costumbre de recurrir a las redes bayesianas para señalar que el Pentágono podía constituir un objetivo potencial. El sistema de Bayes empleado combinaba las opiniones de los expertos con los pareceres subjetivos, relacionando dicha información con la materialización de acontecimientos posibles que nunca se hubieran producido.

Los Estados Unidos no son el único país que trata de predecir la ocurrencia de atentados terroristas. Cuando en Gran Bretaña se comenzó a ponderar la idea de crear un banco nacional de datos destinado a la detección de terroristas en potencia, la utilización del método de Bayes vendría a despertar la misma alarma que ya había generado al plantearse el control generalizado de la población a fin de detectar la incidencia del virus del sida. Los terroristas son tan poco frecuentes que la definición de terrorista tendría que ser extremadamente precisa para evitar que se consideraran peligrosas a un gran número de personas que, en realidad, son totalmente inofensivas.

En el ámbito de Internet, el teorema de Bayes ha logrado abrirse camino y penetrar en la médula misma de la vida moderna. Nos ayuda a filtrar el correo no deseado, a vender música, libros y películas, a buscar sedes electrónicas, a traducir las lenguas extranjeras y a reconocer mensajes de voz. David Heckerman utilizaría las redes bayesianas para diagnosticar las enfermedades relacionadas con los nódulos linfáticos en la elaboración de su tesis doctoral, mostrando hacia el método de Bayes la actitud plenamente abierta que caracteriza a los médicos contemporáneos: «Lo que importa para decidirse a ser bayesiano es saber que todo cálculo probabilístico implica un determinado grado de incertidumbre y que siempre que nos enfrentamos a la incertidumbre tenemos que representárnosla por medio de la probabilidad. Y eso define un campo mucho más amplio que el del teorema de Bayes».

En el año 1992, Heckerman abandonó la Universidad de Stanford para empezar a trabajar en la compañía Microsoft, fundando en dicha empresa un Grupo de Investigación en los ámbitos del Aprendizaje Automático y la Estadística aplicada —grupo que también gestiona el propio Heckerman—. Los problemas que se abordan en esa división de Microsoft son muy distintos. Como en la Universidad de Stanford contaba con un gran número de expertos y con pocos datos, Heckerman señala que en esa institución se tenía que dedicar a la elaboración de redes bayesianas provistas de a priori basados en las opiniones de los expertos: «Microsoft, en cambio, dispone de grandes volúmenes de datos pese a no tener sino a un puñado de expertos, de modo que lo que hicimos fue empezar a combinar el conocimiento de esos expertos con los datos que la compañía ponía a nuestro alcance». Una de las primeras aplicaciones que vendría a desarrollar Microsoft se concretaría en un programa que permitía a los padres que tuvieran un hijo enfermo introducir los síntomas observados y recibir como respuesta una lista de las medidas más adecuadas a adoptar. En el año 1996, Bill Gates, cofundador de Microsoft, llevaría el método de Bayes a las primeras planas al anunciar que la ventaja competitiva de que disfrutaba Microsoft residía en su competente utilización de las redes bayesianas.

Ese mismo año, David Heckerman, secundado por Robert Rounthwaite, Joshua Goodman, Eric Horwitz y otros autores, comenzaría a indagar en las técnicas bayesianas para el filtrado del correo fraudulento. ¿Se acuerda de los mensajes de vVi-@-gra, l0w mOrtg@ge rates, PARTNERSHIP INVESTMENT y !!!! PharammcyByMAIL? Es habitual enviar a millones de personas, y sin su permiso, toda una serie de anuncios que no sólo no son deseados sino que resultan ser muy a menudo de carácter pornográfico y fraudulento. El correo basura no tardaría en representar más de la mitad del total de los correos electrónicos circulantes en Internet, de modo que algunos usuarios de los servicios de mensajería cibernética se han estado viendo obligados a dedicar media hora al día a separar el grano de la paja.

Los métodos bayesianos filtran el correo basura empleando las palabras y las frases del mensaje para determinar la probabilidad de que el envío resulte fraudulento o indeseado. Las cifras que señalan la probabilidad de que un mensaje electrónico sea en realidad un correo basura pueden ascender como la espuma y aproximarse mucho a la certeza total, del 0,9999, si contiene expresiones como «nuestro precio» o «de toda confianza»; palabras codificadas como «genierc virgaa»; y mayúsculas o signos de puntuación como «!!!» o «$$$». Los mensajes que muestran una alta probabilidad de revelarse indeseados son automáticamente enviados al espacio reservado al correo basura. Los usuarios van perfeccionando poco a poco la fiabilidad de los filtros que usan al leer los mensajes con una baja probabilidad de resultar negativos y decidir conservarlos o preferir, por el contrario, arrastrarlos a la basura. Este empleo de los clasificadores óptimos de Bayes es similar a la técnica que utilizaron en su día Frederick Mosteller y David Wallace para determinar la autoría de unos cuantos artículos publicados en el Federalist.

La teoría bayesiana se halla firmemente anclada en el sistema operativo Windows de Microsoft. Hay además distintas técnicas de corte bayesiano que intervienen en diferentes situaciones: es el caso de los programas de reconocimiento de la escritura manual; de los filtros de recomendación; de la casilla de preguntas y respuestas que aparece en el ángulo superior derecho de la pantalla de un ordenador personal; de los paquetes de programas lógicos de extracción de datos destinados a seguir la evolución de las ventas de una empresa concreta; de los programas que deducen las aplicaciones que los usuarios pueden necesitar y las carga de antemano, antes de que el cliente las solicite; y de los programas lógicos concebidos para realizar predicciones relacionadas con la posible ocurrencia de atascos de tráfico y cuya consulta permite a los conductores evitarse problemas cuando tienen que ir al trabajo o realizar un transbordo sujeto a un determinado horario.

Se ha culpado al método de Bayes —de forma injusta, según manifiestan Heckerman y Horwitz— del incomodísimo ayudante de Office de Windows oficialmente denominado Clipo, y coloquialmente Clippy, de infausta memoria. El personaje de dibujos animados que aparecía sorpresivamente en la pantalla había sido originalmente programado mediante unas redes bayesianas de análisis de creencias pensadas para realizar inferencias relacionadas con los conocimientos que podía tener o no un determinado cliente en materia de redacción de cartas. Una vez que el usuario rebasaba un concreto umbral de desconcierto y frustración en su intento de redactar una carta, surgía de pronto Clippy y con una gran sonrisa le espetaba la siguiente observación, cuya versión inglesa («It looks like you’re writing a letter. Would you like help?») es gramaticalmente incorrecta:[17.iv] «Parece que está usted escribiendo una carta. ¿Necesita ayuda?». Lo que había ocurrido, sin embargo, era que, antes de lanzar a Clippy al mundo, un grupo de informáticos no bayesianos había reemplazado el algoritmo original por otro más tosco que hacía que Clippy saltara a la palestra con irritante frecuencia. El programa terminó revelándose tan impopular que no hubo más remedio que retirarlo.

Es probable que tanto a Bayes como a Laplace les horrorizara saber que su trabajo participa de forma muy intensa en la comercialización de artículos. Buena parte del comercio en Internet encuentra su fundamento técnico en los filtros de recomendación, a los que también se conoce con el nombre de filtros colaborativos, concebidos sobre el supuesto de que existen grandes probabilidades de que la gente que encuentra interesante un determinado producto considere igualmente atractivo otro similar. Así reza en cualquier caso la muletilla del comercio electrónico: «Si le ha gustado este libro (canción o película), también le gustarán estos otros». El sistema de actualización de datos que se emplea en el aprendizaje automático no necesariamente se ajusta a las directrices formales del teorema de Bayes, pero desde luego «comparte su planteamiento». Un concurso dotado con un premio de un millón de dólares patrocinado por la empresa Netflix.com viene a ilustrar adecuadamente el destacado papel que desempeñan los conceptos bayesianos en el moderno comercio electrónico y la teoría del aprendizaje. En el año 2006, la compañía Netflix.com, especializada en el suministro comercial de películas en línea, lanzó un llamamiento con el fin de encontrar el mejor filtro de recomendación posible y mejorar así el algoritmo que ella misma venía utilizando hasta entonces. Durante los cuatro años que duró el concurso competirían más de cincuenta mil participantes de ciento ochenta y seis países. En septiembre del año 2009 se alzaba con el premio un equipo de los laboratorios de la AT&T dirigido por Yehuda Koren, Christopher T. Volinsky y Robert M. Bell.

Curiosamente, pese a que ninguno de los concursantes diera en cuestionar la legitimidad del método de Bayes, prácticamente ninguno de ellos elaboraría sus algoritmos de acuerdo con los modelos bayesianos formales. El grupo ganador basaría su trabajo en el bayesianismo empírico, pero realizaría la estimación de los a priori iniciales en función de los datos frecuentistas de que ellos mismos disponían. La base de datos de la compañía de servicios de vídeo en línea era demasiado voluminosa y tenía demasiadas incógnitas para permitir que un sistema cualquiera lograra generar un modelo —y de forma casi instantánea—, asignándole asimismo los correspondientes a priori, actualizando repetidas veces los a posteriori, y ofreciendo finalmente la recomendación de una película específica a los clientes. En lugar de emplear dicho sistema, el algoritmo ganador operaba desde una «perspectiva» bayesiana y había sido aderezado con «aromas» igualmente bayesianos. No obstante, la lección más importante de todas cuantas pudieron extraerse del concurso convocado por la empresa Netflix.com se originaría a la manera de una idea bayesiana, ya que vendría a consistir en lo que hoy llamamos información compartida.

En el año 1997, mientras trabajaba en su tesis doctoral sobre la predicción de la probabilidad de que un paciente pudiera sufrir un accidente cerebrovascular, Volinsky ya había utilizado un modelo de cálculo de medias de carácter bayesiano para compartir la información y promediar los modelos complementarios. Sin embargo, el equipo de Volinsky y Bell no emplearía directamente ese mismo método en el caso de la empresa Netflix.com. Con todo, Volinsky destacaba el hecho de que «debido a la formación que yo mismo había recibido en relación con la aplicación del modelo bayesiano de cálculo de medias, comprendí intuitivamente que la combinación de modelos iba a ser la mejor forma de mejorar el rendimiento predictivo del programa. Los estudios relacionados con el modelo bayesiano de cálculo de medias muestran que si se combinan inteligentemente dos modelos que no guarden una estrecha relación entre sí, es frecuente observar que la combinación resulta más efectiva que cualquiera de los dos modelos por separado». El concurso de la Netflix.com conseguiría hacer pública la reputación del sistema de Bayes, presentándolo como un enfoque que no sólo resultaba fecundo en el campo del aprendizaje automático sino que iba mucho más allá de la simple tecnología bayesiana.

Los usuarios de la Red utilizan distintas formas del método de Bayes para realizar sus búsquedas, orientarse en los miles de millones de documentos existentes y localizar lo que desean encontrar. No obstante, antes de obtener los resultados apetecidos es preciso establecer un perfil de cada documento, o proceder a su categorización, organizándolos y clasificándolos, por no mencionar que también ha de calcularse necesariamente la probable interrelación que pueda vincularlo con otros documentos. Una vez realizado todo eso, ya podemos introducir en un motor de búsqueda el conjunto de palabras clave carentes de relación recíproca que deseamos que figuren en el documento que tratamos de encontrar, como por ejemplo «loros», «madrigales» y «lengua afgana». La regla de Bayes puede cribar los miles de millones de páginas electrónicas existentes y encontrar dos que resulten relevantes para los términos de búsqueda en poco más de medio segundo. Este tipo de acciones «se reducen a otros tantos problemas inferenciales», afirma Peter Hoff, de la Universidad de Washington. El planteamiento es el siguiente: «Dado que has encontrado un documento interesante, ¿serías capaz de hallar otros documentos que también te resulten atractivos?».

Cada vez que Google pone en marcha un proyecto que implique el manejo de grandes volúmenes de datos, es frecuente que sus gigantescos motores de búsqueda intenten resolver primeramente la cuestión utilizando un conjunto de métodos bayesianos ingenuos. Los clasificadores bayesianos ingenuos presuponen, de forma bastante simplista, que todas las variables son independientes unas de otras. De este modo, el programa trata el hecho de que un paciente presente un cuadro febril y tenga un hemograma con un elevado recuento leucocitario como si se tratara de dos informaciones totalmente inconexas una con otra. Así lo explica Peter Norvig, el director de investigaciones de la compañía Google: «Creo que deben de ser decenas las veces que hemos iniciado un proyecto valiéndonos de los clasificadores bayesianos ingenuos. Lo hacíamos por la sencilla razón de que no resultaba nada difícil ponerlo en práctica, aunque hay que añadir que más tarde esperábamos sustituir dicho método por algo más refinado. Sin embargo, al final, el inmenso volumen de información nos llevaba a comprender que no era preciso emplear una técnica más compleja».

Google también recurre a las técnicas bayesianas para categorizar el correo basura y la pornografía y hallar palabras, frases y documentos relacionados con esas cuestiones. Una red bayesiana de grandes proporciones es capaz de encontrar los sinónimos de las palabras y las frases que se buscan. En lugar de cargar en sus sistemas diccionarios para disponer de un programa de comprobación de la ortografía, Google optó en su día por realizar una búsqueda completa de los textos existentes en el conjunto de Internet a fin de detectar las distintas formas en que pueden aparecer deletreadas las palabras. El resultado es un sistema flexible que se revela capaz de reconocer que «shaorn» debería haberse escrito «Sharon» y que procede a corregir el lapsus.

Y si el teorema de Bayes ha contribuido a revolucionar la forma actual de utilizar la Red, también está ayudando a corregir los efectos de la Torre de Babel que lleva miles de años aislando a las comunidades lingüísticas. Durante la segunda guerra mundial, Warren Weaver, de la Fundación Rockefeller, quedaría impresionado al comprobar que «la multiplicidad de lenguas impide la realización de intercambios culturales entre los distintos pueblos que habitan el planeta, convirtiéndose en un grave obstáculo para el entendimiento entre las naciones».[17.6] Asombrado por la potencia de la criptografía mecanizada y por la entonces reciente teoría de la información de Claude Shannon, Weaver daría en sugerir que los métodos estadísticos computerizados podían abordar las dificultades de la traducción al modo de un problema criptográfico. Al no disponerse en esos años de la suficiente potencia informática y de un importante volumen de textos inteligibles para los ordenadores, la idea de Weaver permanecería en barbecho durante décadas.

Desde entonces, la búsqueda del santo grial de los traductores automáticos se ha venido centrando en la creación de una máquina universal capaz de verter a un idioma distinto, y viceversa, el texto escrito y el discurso hablado en una determinada lengua, sea cual sea. De este modo, algunos lingüistas, como Noam Chomsky, darían en incluir entre sus tareas la labor de desarrollar las normas estructurales que rigen la construcción de las oraciones inglesas y la ubicación del sujeto, el verbo y los adjetivos, junto con la sintaxis correspondiente, pero no conseguirían elaborar un algoritmo que permitiera explicar por qué una secuencia específica de palabras constituye una oración inglesa y otra diferente no.

En la década de 1970, la IBM contaba con dos equipos propios a los que encargaría trabajar, compitiendo entre sí, en problemas asociados con el reconocimiento de voz. Uno de los grupos, integrado por una mayoría de lingüistas, se centró en el estudio de las reglas gramaticales. El otro grupo, encabezado por Robert L. Mercer y Peter F. Brown —es decir, por los estadísticos que más tarde habrían de recalar en RenTech—, estaba compuesto por un conjunto de especialistas en sistemas de comunicación, informáticos e ingenieros, todos ellos particularmente proclives al uso de las matemáticas. Los miembros de este grupo adoptaron una táctica distinta y sustituyeron la lógica gramatical por la regla de Bayes —consiguiendo únicamente que se ignorara su trabajo por espacio de una década.

La ambición de Mercer consistía en llegar a crear ordenadores capaces de comportarse de forma inteligente, y el único modo de conseguir ese objetivo parecía ser la utilización de los sistemas de reconocimiento de voz. Tanto a los ojos de Mercer como a los de Brown, el problema del reconocimiento de voz se reducía a coger una señal que hubiera tenido que viajar a través de un canal saturado de ruido, como el cable telefónico, para determinar a continuación la frase que mayores probabilidades tuviera de corresponder efectivamente a la que el emisor pudiera haber tenido en mente. Haciendo caso omiso de las reglas gramaticales, Mercer y Brown decidieron imaginar la probabilidad estadística de que las palabras y las frases de un idioma pudieran terminar convirtiéndose en palabras y frases específicas de otra lengua. No tenían la menor necesidad de dominar ningún idioma en particular. Se estaban limitando a calcular la probabilidad de que la palabra a reconocer fuese una en concreto, dado el conjunto de palabras que la habían precedido en la oración emitida. Por ejemplo, al observar por pares las palabras inglesas se percataron de que resultaba altamente improbable que la palabra que se colocara inmediatamente después de the pudiera ser otro the o a, que cantaloupe[17.v] tenía en cambio unas probabilidades un poco mayores y que todavía más probable resultaba la palabra tree.

«Todo dependía del teorema de Bayes», recuerda Mercer. «Nos proporcionaban un dato de salida acústico y nosotros teníamos que determinar cuál era la secuencia de palabras más probable que pudiera corresponder a la cadena de elementos acústicos que acabábamos de escuchar». La información a priori consistía en este caso en el orden más probable que solían adoptar las palabras de una oración inglesa, orden que Mercer y Brown lograban establecer estudiando una enorme cantidad de textos ingleses.

A lo largo de toda la década de 1970, el mayor problema consistía en encontrar un volumen de datos suficiente. Mercer y Brown necesitaban disponer de muestras textuales que se centraran en algún tema razonablemente bien acotado, pero cuyo contenido tampoco resultara tan complejo como el del New York Times. Al principio se abrirían paso entre una jungla de antiguos libros infantiles descatalogados, a lo que añadirían mil palabras más procedentes de un experimento que la Oficina de Patentes de los Estados Unidos había realizado con la tecnología láser, y sesenta millones de palabras sacadas de un texto de lectura en Braille pertenecientes a la Impresora Estadounidense para Invidentes.

Todos los miembros del grupo de la compañía IBM se presentaron en una reunión internacional sobre señales acústicas y discurso hablado vestidos con unas camisetas idénticas en las que podía leerse el siguiente rótulo: «Ecuación fundamental del reconocimiento de voz» —declaración a la que seguía la fórmula del teorema de Bayes—. Darían entre todos «una especie de espectáculo», recordaría más tarde Mercer. «Hoy me siento un poco avergonzado», añade, «ya que me temo que por esos años éramos todos una insoportable pandilla de fantoches».

Uno de los grandes avances que conseguirían realizar los integrantes del grupo a finales de la década de 1980 se produciría al poder acceder éstos a las traducciones francesas de los debates que el parlamento canadiense celebraba cotidianamente en lengua inglesa, lo que les permitiría trabajar con unos cien millones de palabras aproximadamente, todas ellas en un formato inteligible para los ordenadores. De esos textos, la compañía IBM lograría extraer unos tres millones de pares de oraciones, de las cuales prácticamente el noventa y nueve por ciento eran parejas idénticas, una en inglés y otra en francés. Aquello era como la piedra de Rosetta para la recíproca decodificación del inglés y el francés. «Teníamos el material correspondiente a un día de labor parlamentaria en inglés y su equivalente en francés, de modo que lo dispusimos todo sobre esa base, pero no sabíamos si esta o aquella frase era o no la pareja traducida de tal o cual oración o vocablo. Por ejemplo, cuando el texto inglés transcribía los gritos de “Hear! Hear!”, la versión francesa decía “Bravo!”. Así las cosas, comenzamos a esforzarnos por conseguir una mejor superposición de las oraciones. Utilizábamos los mismos métodos que se emplean en el reconocimiento de voz, esto es, el teorema de Bayes y un conjunto de modelos de Márkov ocultos». Estos últimos resultan particularmente útiles para reconocer pautas en las que intervengan secuencias temporales verosímiles, como por ejemplo las relacionadas con la predicción de la aparición de una palabra en una frase sobre la base de la información que proporciona la palabra anterior.

En el año 1990, el grupo de la IBM publicaría un artículo crucial en el que se explicaba la forma de aplicar el teorema de Bayes a las oraciones completas. La probabilidad de que la frase President Lincoln was a good lawyer («El presidente Lincoln era un buen abogado») significase Le matin je me brosse les dents («Me cepillo los dientes por la mañana») era pequeña. Sin embargo, la probabilidad de que su sentido fuese Le president Lincoln était un bon avocat se revelaba relativamente elevada. Tras la publicación de este ensayo, varios de los más destacados sistemas de traducción decidirían incluir la regla de Bayes en sus algoritmos.

En el año 1993, atraídos por los jugosos incentivos económicos y el desafío que suponía el cambio, Mercer y Brown dejarían la IBM y la traducción automática para incorporarse a RenTech, donde ocuparían la vicepresidencia y recibirían el encargo de realizar la gestión conjunta de la cartera de clientes y la comercialización técnica de la empresa. Serían tantos los miembros del grupo de reconocimiento de voz creado por la compañía IBM que se unirían a ellos, abandonando la empresa matriz, que se han escuchado críticas que afirman que su decisión supuso un retraso de cinco años para el campo de la traducción automática.

Tras el desastre del 11 de septiembre de 2001 y el inicio de la guerra en Irak, las autoridades del ejército y de los servicios de inteligencia estadounidenses comenzarían a invertir grandes cantidades de dinero en la traducción automática. Tanto la Agencia de Investigación de Proyectos Avanzados de Defensa de los Estados Unidos como las fuerzas aéreas y los servicios de inteligencia de ese mismo país deseaban aliviar la carga de los profesionales de la traducción cuyo trabajo se centraba en la versión de lenguas tan poco estudiadas como el uzbeko, el pastún, el dari o el nepalí.

A la traducción automática le quedaba todavía por recibir un nuevo impulso: el que vendría a darle la empresa Google al empezar a echar ésta sus redes en Internet en busca de nuevos textos que pudieran servirle a la manera de otras tantas piedras de Rosetta. Lo que la compañía intentaba encontrar eran relatos y documentos nuevos publicados a un tiempo en inglés y en otra lengua. Sólo con los documentos pertenecientes a las Naciones Unidas consiguió Google doscientos mil millones de palabras. Por esta época circulaba ya en la Red un enorme volumen de textos, y todos ellos de libre disposición. Google comenzó a combinar las ocurrencias de las palabras inglesas en la Red, contabilizando todas las ocasiones en que una secuencia inglesa integrada por dos palabras venía a significar, por ejemplo, of the. Al objeto de determinar cuáles eran las palabras de la oración inglesa que correspondían a las voces propias del idioma de llegada, Google decidiría emplear la regla de Bayes a fin de alinear las frases y de establecer la equivalencia más probable.

En el año 2005, Google consiguió ganar las cintas azules de la excelencia en un concurso de traducción automática patrocinado por el Instituto Nacional de Estándares y Tecnología de los Estados Unidos, quedando así demostrado que los progresos no se estaban consiguiendo como consecuencia de la elaboración de una serie de algoritmos mejores, sino como resultado de la utilización de un mayor volumen de datos en la promoción del aprendizaje automático. Los ordenadores no «comprenden» nada, pero sí son capaces de reconocer las pautas que se les presentan. En el año 2009, Google era ya capaz de ofrecer traducciones en línea en varias decenas de idiomas, entre los que cabe destacar el inglés, el albano, el árabe, el búlgaro, el catalán, el chino, el croata, el checo, el danés, el holandés, el estonio, el filipino, el finlandés y el francés.

La Torre de Babel empezaba a derrumbarse. Pese a que la regla de Bayes estuviera mejorando las comunicaciones humanas, lo cierto era que también estaba cerrando el círculo de su peripecia y regresando a la fundamental pregunta que había ocupado las mentes de Bayes, Price y Laplace. ¿Cómo aprendemos? Gracias a la regla de Bayes, más de medio millón de estudiantes de los Estados Unidos lograrían conocer todos los años la respuesta a esa pregunta: Aprendemos combinando el conocimiento antiguo con el nuevo. Aproximadamente dos mil seiscientos institutos de enseñanza secundaria se dedicarían a enseñar álgebra y geometría mediante una serie de programas informáticos de raíz bayesiana: los que la Universidad Carnegie Mellon ha venido desarrollando desde finales de la década de 1980. El fundamento lógico de dichos sistemas también se aplica al aprendizaje del francés o el inglés como segunda lengua, así como al estudio de la química, la física y la estadística.

Estos programas, denominados Tutores Cognitivos, se basan en una idea lanzada por John R. Anderson, una idea que sostiene que el teorema de Bayes consigue emular la forma en que aprendemos de manera natural, esto es, gradualmente. La facultad de acumular datos probatorios es una estrategia de supervivencia óptima, pero nuestros cerebros son incapaces de asignar una elevada prioridad a todo cuanto se somete a su consideración. Por consiguiente, la mayoría de los estudiantes han de ver y trabajar muchas veces con un mismo concepto matemático antes de poderlo almacenar en la memoria para recuperarlo y aplicarlo después a voluntad. Nuestra capacidad para conseguir este tipo de objetivos depende de la frecuencia con que hayamos estudiado el concepto y de si el período de la instrucción pertenece o no al pasado reciente.

Además de considerar que la regla de Bayes permite la génesis de un proceso de aprendizaje continuo, los Tutores Cognitivos recurren al teorema de Bayes para establecer el «habilidómetro» de cada uno de los estudiantes, esto es, la probabilidad de que un determinado individuo haya conseguido dominar ya un tema concreto y se encuentre en situación de aceptar un nuevo desafío. Diez años después de que se pusiera en marcha este enfoque bayesiano de doble acción se revelaría que los estudiantes que lo habían adoptado estaban aprendiendo lo mismo, o más, que los alumnos que seguían un método basado en los sistemas docentes tradicionales —aunque en un lapso de tiempo tres veces menor.

El florecimiento de los sistemas bayesianos, las redes neurales y las estructuras de la inteligencia artificial ha ayudado a los neurocientíficos a estudiar la forma en que las neuronas cerebrales procesan la información que les llega, tanto por vías directas como indirectas, descubriendo que trabajan con pequeños fragmentos fácticos cada vez, ocupándose únicamente de diminutos paquetes de datos, datos que muy a menudo son además contradictorios. En su doble condición de herramienta informática y de teoría del aprendizaje, el método de Bayes ha participado tanto en los procesos de cartografiado del cerebro como en los trabajos de análisis de sus circuitos y en la decodificación de las señales procedentes de las neuronas, utilizándolas para fabricar prótesis y robots progresivamente mejorados.

En situación de vigilia, el cerebro se ve bombardeado por cientos de megabites de información sensorial cada segundo. De ese enorme flujo de datos, diez mil millones de células nerviosas logran extraer la información pertinente y corregir varias veces —cada cien milisegundos— la interpretación inicial. El problema que plantea el discernimiento de cuál es el estímulo sensorial que ha provocado específicamente una determinada respuesta neuronal resulta notablemente difícil, debido a que las neuronas se activan de un modo impredecible, a que los científicos son incapaces de supervisar simultáneamente el estado en que se encuentran todas ellas, y a que son múltiples las fuentes que suministran al cerebro la información de entrada que éste habrá de combinar después. Las regiones visuales de nuestro cerebro, por ejemplo, generan objetos y escenas tridimensionales. Para lograrlo, se basan en el conocimiento previo que poseemos acerca de las regularidades de nuestro entorno —por ejemplo, que por regla general la luz incide en nosotros desde un punto situado sobre nuestras cabezas y que es muy probable que las líneas rectas y los ángulos de noventa grados sean obra de los seres humanos—. Sin embargo, nuestro cerebro perfecciona y afina esos conocimientos con los nuevos datos que le llegan a millares y que le informan acerca de la profundidad de campo, de los contornos de la imagen, de su simetría, de las líneas curvas de su silueta, de la textura de su superficie, del sombreado del conjunto, de los reflejos, de la perspectiva y del movimiento, si lo tiene.

En el año 1998, el neuroestadístico Emery N. Brown, intregrado en los equipos del Instituto Tecnológico de Massachusetts y del Hospital General de esa misma ciudad, comprendería que los métodos bayesianos podían hacer frente a ese tipo de incertidumbres. Valiéndose de los filtros de Kalman, y con la colaboración de Matthew A. Wilson, uno de los neurocientíficos del Instituto, Brown conseguiría describir el funcionamiento del cerebro de una rata en el preciso instante en que ésta procesaba la información relativa a su ubicación en el entorno. Eran aproximadamente treinta las neuronas del hipocampo del animal encargadas de mantener al roedor al tanto de su posición —unas células a las que se da el nombre de neuronas de posicionamiento—. Mientras la rata de laboratorio se dedicaba a husmear en una caja aleatoriamente cubierta de trocitos de chocolate, los electrodos que tenía implantados en el cerebro ofrecían a los científicos la imagen de algunas de las neuronas de posicionamiento que pasaban a activarse de manera sucesiva. Después, un filtro bayesiano iba actualizando secuencialmente las distintas posiciones en que se situaba la rata dentro de la caja. Los investigadores no podían ver al animal, y tampoco la urna en la que evolucionaba, pero al contemplar la progresiva activación de las neuronas tenían la posibilidad de seguir el rastro de los movimientos del roedor. Gracias al teorema de Bayes, Brown acertó a reconstruir el itinerario seguido por aquella rata aficionada al chocolate, y sin necesidad de estudiar más que la quinta o la décima parte de las neuronas que habían exigido los anteriores métodos.

A fin de ahondar en los aspectos prácticos derivados del empleo del cerebro vivo como elemento de activación de las prótesis y los robots, se imitó el método estadístico de Brown con la ayuda de unas cuantas decenas de neuronas motoras, de distintos algoritmos bayesianos y de diversos filtros de partículas de esa misma índole. El objetivo consistía en desarrollar un brazo artificial capaz de coger los objetos suavemente, rotar después la mano, mover los dedos independientemente unos de otros y sujetar y manipular cosas. Uno de los experimentos que vendrían a ilustrar las posibilidades de este enfoque sería el de uno de los monos Rhesus del laboratorio de la Universidad de Pittsburgh en el que trabaja Andrew B. Schwartz. Se colocaba al animal frente a un apetitoso manjar, y se le daba la oportunidad de contemplarlo durante un buen rato. Se habían introducido los brazos del macaco en sendos tubos de plástico, de modo que al comenzar a salivar el mono, las neuronas motoras de su cerebro se activaban repetidamente, activando el brazo robótico al que estaban conectadas. El simio lograba un control de tanta precisión que podía alargar el brazo robótico, pescar el apetitoso bocado y llevárselo a la boca. Con los métodos frecuentistas se pueden conseguir movimientos sencillos que impliquen desplazamientos antero-posteriores, pero los neuroestadísticos bayesianos creen que sus algoritmos lograrán adquirir la potencia y la flexibilidad suficientes como para alcanzar a controlar tanto la posición como la rotación, la aceleración, la velocidad, el impulso y la fuerza prensil del brazo robótico.

Estos esfuerzos destinados a aprovechar la totalidad de la información de que disponen las neuronas suscitan algunas preguntas: ¿Cuál es el funcionamiento del cerebro mismo? ¿Se dedica también él a maximizar la información que obtiene del mundo —un mundo plagado de elementos de incertidumbre— mediante la realización de cálculos semejantes a los bayesianos? Al debatir acerca de estas cuestiones se observa que el teorema de Bayes se ha convertido en algo más que una simple contribución al análisis de datos y a la toma de decisiones. Ha pasado a constituir un marco teorético para explicar el funcionamiento del cerebro. De hecho, en ese sentido, hace ya algún tiempo que viene empleándose la metáfora del «cerebro bayesiano» para aludir al paradigma que entiende que el cerebro humano imita el comportamiento de la probabilística surgida de Thomas Bayes.

En la lucha que mantenemos por la supervivencia en un mundo incierto y tornadizo, es frecuente que nuestros sistemas sensoriales y motores generen señales que muy a menudo se revelan incompletas, ambiguas y variables, por no mencionar el hecho de que en muchas ocasiones se vean alteradas por la acción de un conjunto de fluctuaciones aleatorias. Si colocamos una mano bajo la mesa y decidimos realizar una estimación del lugar en el que se encuentra ésta, podemos errar la predicción en más de diez centímetros. Cada vez que el cerebro emite una orden para ejecutar una determinada acción producimos un movimiento ligeramente diferente. En un mundo tan confuso, Bayes ha revelado ser un marco teorético muy útil. Nos ayuda a comprender las vías que posiblemente orientan el aprendizaje del cerebro y demuestra matemáticamente los sistemas que empleamos los seres humanos para proceder a la combinación de dos clases de información: la relativa a las creencias previas que mantenemos en relación con el mundo y la relacionada con la información que nos proporcionan nuestros sentidos —una información plagada de errores.

Como ya subrayara Lindley hace años, si nos sentimos seguros acerca de los datos que nos envían nuestros órganos sensoriales confiamos en lo que nos dicen. Sin embargo, cuando no tenemos más remedio que bregar con un conjunto de datos sensoriales escasamente fiables recurrimos a la información que nos proporcionan las creencias que previamente hayamos ido acumulando acerca del mundo.

Daniel Wolpert, de la Universidad de Cambridge, ha sometido a prueba esta teoría valiéndose de un juego de tenis virtual y ha logrado mostrar que, inconscientemente, los jugadores combinan el conocimiento previo que tienen acerca del rebote de las pelotas y balones en general con los datos sensoriales vinculados con la bola concreta que se acerca a ellos tras superar la red. En resumen: lo que hacen de manera inconsciente es comportarse igual que un buen estadístico bayesiano. Wolpert comenta además que lo más interesante del método bayesiano es el hecho de que, en este caso, no genere ningún número. Realiza una multitud de predicciones de todos los estados posibles que pueden darse en función de la información sensorial concreta que se haya recibido. De este modo se determina que lo más probable es que la pelota de tenis venga a botar en un determinado punto —aunque siempre exista la posibilidad racional de que vaya a impactar en otro lugar.

De acuerdo con lo que nos permite deducir la regla de Bayes, el cerebro almacena una amplia gama de posibilidades y opta por asignarles probabilidades de dos tipos: altas o bajas. Hoy sabemos que la visión en color opera de esa forma. Creemos ver el color rojo, pero de hecho vemos todo un espectro de colores y asignamos después la más alta probabilidad al rojo, aunque teniendo bien presentes otras posibilidades de segundo orden, como la de que el color sea rosa o púrpura.

Wolpert llegaría a la conclusión de que el pensamiento bayesiano es el fundamento de todo cuanto hacemos los seres humanos, desde el habla hasta la gesticulación. El cerebro biológico ha evolucionado de tal forma que ha conseguido minimizar las incertidumbres presentes en el mundo, y lo ha hecho pensando de un modo bayesiano. En pocas palabras, las pruebas de que disponemos —cada vez más numerosas— sugieren que nuestro cerebro es de carácter bayesiano.

Dado el conflictivo pasado del teorema de Bayes y la prolífica realidad de sus contribuciones, ¿cuál puede ser su futuro? Cabe afirmar que estamos ante un enfoque que ya ha demostrado su valía, puesto que no sólo ha hecho avanzar a la ciencia sino también a la tecnología, y esto tanto en el campo de las altas finanzas como en el del comercio electrónico, la sociología, el aprendizaje automático, la astronomía y la neurofisiología. La regla de Bayes es la expresión fundamental del modo en que pensamos y comprendemos el mundo. Todavía hoy seduce a quienes la emplean por su sencillez matemática y su elegancia.

¿Pero qué puede ocurrir en los siglos venideros? La mera fuerza bruta de los ingenios informáticos se ha revelado capaz de organizar una asombrosa cantidad de información, aunque lo cierto es que tiende a agrupar en bloques las búsquedas de documentos que efectúa y a operar en función de un conjunto de palabras clave, de modo que sus resultados acostumbran a ser más bien toscos. Sólo el cerebro humano examina los documentos y las imágenes ateniéndose a su significado y a su contenido. ¿Qué enfoque puede resultar más útil en el futuro? ¿Lograrán adquirir los ordenadores una potencia tan enorme que el solo hecho de reunir y manejar un inmenso volumen de datos alcanzará a enseñarnos todo cuanto necesitemos saber? ¿Dejarán de verse los científicos en la necesidad de elaborar teorías o hipótesis antes de ponerse a experimentar o a recopilar información? ¿O seguiremos pensando que los principios organizativos de raíz bayesiana resultan fundamentales? Las estrategias que actualmente se emplean en el diseño de ordenadores capaces de operar en el plano biológico explotan algunos principios muy antiguos, como los relacionados con la existencia de partes reutilizables, estructuras jerárquicas, variaciones temáticas y sistemas de regulación.

Según Stuart Geman, cuyo muestreo de Gibbs contribuiría a poner en marcha la moderna revolución bayesiana, el punto de partida de este debate arranca con la regla de Bayes y sus a priori. Así lo expresa él mismo: «En esta cuestión, no hay argumento más favorable al teorema de Bayes que el hecho de que sea capaz de reconocer las estructuras internas del cerebro y las expectativas apriorísticas de ese mismo órgano». Las viejas controversias entre bayesianos y frecuentistas han sufrido una reorganización, de modo que hoy su formulación se reduce a preguntarse si es o no preciso emplear el método probabilístico. No obstante, sean nuevos o viejos, los asuntos a tratar se revelan similares, cuando no idénticos, sostiene Geman. Y bajo estos nuevos ropajes, el aprendizaje bayesiano y sus a priori constituyen el eje del debate.

¿Cabe esperar el advenimiento de un futuro en el que los ordenadores se revelen capaces de competir con nuestros cerebros biológicos en el ámbito de la comprensión del mundo? ¿Se programarán dichos ordenadores con el principio de Bayes? ¿O se utilizará un método distinto?

Sea cual sea el resultado final de la revolución, Diaconis insiste en que el sistema de Bayes habrá de desempeñar un papel relevante. «El teorema de Bayes sigue constituyendo una metodología joven. La probabilística no pudo apoyarse en ningún elemento matemático hasta el año 1700. Las aplicaciones de la regla de Bayes surgieron y proliferaron en un entorno dominado por la escasez de los datos y por una pobre capacidad de cálculo. Su potencial no ha terminado de asentarse todavía. Es preciso darle algo más de tiempo».

«Esto acaba de empezar».