En esta parte adoptaré una perspectiva más positiva y examinaré lo que diferencia al totalitarismo cibernético del humanismo al considerar la evolución de la cultura humana.
Lo que espero demostrar es que cada forma de pensar tiene su sitio y un ámbito específico y pragmático dentro del cual cobra sentido.
Deberíamos rechazar el totalitarismo cibernético como base para tomar la mayoría de nuestras decisiones, pero también reconocer que algunas de sus ideas pueden ser métodos útiles de comprensión.
La distinción entre comprensión y credo, entre ciencia y ética, es sutil. Apenas puedo decir que la domino, pero espero que la siguiente crónica de mi progreso sea de utilidad.
Donde se señalan las variedades de computacionalismo y se define el computacionalismo realista.
En Silicon Valley se pueden encontrar budistas, anarquistas, adoradores de diosas, fanáticos de Ayn Rand, autoproclamados «locos por Jesús», nihilistas y muchos libertarios, además de combinaciones sorprendentes de todos ellos y muchos otros que no parecen tener ideología. Y sin embargo, hay un sistema de creencias que no combina demasiado con ninguna de esas identidades pero que, no obstante, sirve como marco común.
A falta de una palabra mejor, yo lo llamo computacionalismo. Esa palabra se utiliza normalmente de forma más restringida para describir una filosofía mental, pero yo voy a extender el alcance de su significado para abarcar algo parecido a una cultura. Un resumen somero de la filosofía subyacente dice que el mundo se puede entender como un proceso computacional en el que las personas son subprocesos.
En este capítulo estudiaré los usos del computacionalismo en la especulación científica. Voy a sostener que, aunque el computacionalismo resulta útil para entender la ciencia, no debería usarse para evaluar ciertos tipos de ingeniería.
Puesto que soy una rareza en los círculos informáticos —un crítico del computacionalismo—, debo dejar claro que el computacionalismo tiene sus usos.
El computacionalismo no siempre es absurdo. A veces se adopta porque evitarlo puede acarrear otros problemas. Si quieres considerar especiales a las personas, como yo recomiendo, al menos tienes que ser capaz de saber dónde empieza y dónde termina lo que las hace especiales. Es algo parecido, o tal vez incluso coincidente, al problema de situar el círculo de empatía que he descrito en el capítulo 2. Si esperas que la tecnología esté diseñada para servir a las personas, tienes que tener al menos una idea aproximada de lo que es y no es una persona.
Pero hay casos en los que establecer el círculo, no importa cómo, puede causar problemas. Dividir el mundo en dos partes, una normal y corriente —determinista o mecánica, quizá— y otra, desconcertante, o más abstracta, resulta muy difícil para los científicos. Ese es el temido camino del dualismo.
Es difícil estudiar neurociencia, por ejemplo, si das por sentado que el cerebro está conectado con otra entidad —un alma— en un plano espiritual. Tienes que tratar el cerebro simplemente como un mecanismo que no entiendes si quieres entenderlo mejor a través de la experimentación. No puedes declarar por adelantado lo que podrás y no podrás explicar.
Me estoy contradiciendo en este punto, pero es porque desempeño distintos papeles en distintos momentos. En ocasiones diseño herramientas para que las use la gente, mientras que en otros momentos trabajo con científicos tratando de entender el funcionamiento del cerebro.
Tal vez sería mejor si encontrara una única filosofía que pudiera aplicar por igual a cada circunstancia, pero creo que el mejor camino es pensar cosas distintas sobre aspectos de la realidad cuando desempeño esos distintos papeles o realizo distintas funciones.
Hasta el momento he descrito lo que pienso como tecnólogo. En esos casos, adopto un enfoque místico de los seres humanos. Mi principal prioridad debe ser evitar reducir a las personas a simples dispositivos. La mejor forma de hacerlo es creer que los gadgets que fabrico son herramientas inertes y que solo son útiles porque las personas tienen la capacidad mágica de expresar significado mediante ellas.
Cuando adopto un papel distinto —el de colaborador de científicos—, pienso diferente. En esos casos, prefiero ideas en las que no intervienen objetos mágicos, pues los científicos estudian a las personas como si no fuéramos mágicas en absoluto. Lo ideal sería que un científico fuera capaz de estudiar algo sin destruirlo. Pero el objetivo de la tecnología es, sin embargo, modificar la situación humana, de modo que es absurdo aspirar a que los humanos sean irrelevantes.
Cuando desempeño un papel científico, no retrocedo ante la idea de que el cerebro es una especie de ordenador, pero hay más de una forma de utilizar la computación como fuente de modelos para los seres humanos. Enumeraré tres estilos comunes del computacionalismo y luego describiré un cuarto, el que yo prefiero. Cada uno se diferencia en lo tocante a los requisitos necesarios para que el software tal como lo conocemos se parezca más a una persona.
Un estilo se basa en la idea de que una computación lo suficientemente voluminosa adoptará cualidades como la conciencia que solemos asociar con las personas. Por ejemplo, la ley de Moore conduce inexorablemente a la existencia de supercerebros, superseres y, tal vez, en última instancia, una forma de conciencia global o incluso cósmica. Si este lenguaje suena extremo, ten en cuenta que se trata del tipo de retórica presente en el mundo de los entusiastas de la Singularidad y de los seguidores del extropianismo.
Si dejamos de lado el aspecto romántico de esta idea, el corazón de la idea es que el significado surge en los bits como resultado de la magnitud. Un conjunto de mil registros en una base de datos que hacen referencia unos a otros en patrones no tendrían significado sin una persona que los interpretara; pero tal vez un cuatrillón o un gúgol de entradas de una base de datos signifiquen algo por méritos propios, aunque no haya ningún ser que los explique.
Otra forma de decirlo es que si tienes suficientes datos y un ordenador lo bastante grande y rápido, es posible que superes los problemas relacionados con el positivismo lógico. El positivismo lógico es la idea de que una frase u otro fragmento —algo que se puede introducir en un archivo informático— significa algo de forma independiente, con lo que no es necesario invocar la subjetividad de un lector humano. O, en términos nerd: «El significado de una frase son las instrucciones para corroborarla».
El positivismo lógico ha pasado de moda, y hoy día pocos llevarían su estandarte, pero está gozando de un resurgimiento extraoficial con ayuda de la informática. La versión actualizada dice que si tienes muchos datos puedes conseguir que el positivismo lógico funcione a una gran escala estadística. La idea es que dentro de la nube no harán falta las mitades «espirituales» de oposiciones tradicionales como sintaxis/semántica, cantidad/calidad, contenido/contexto y conocimiento/sabiduría.
Un segundo estilo del computacionalismo sostiene que un programa informático con unas características de diseño específicas —normalmente relacionadas con la autorrepresentación y las referencias circulares— es similar a una persona. Algunas de las figuras vinculadas con este enfoque son Daniel Dennett y Douglas Hofstadter, aunque cada uno tiene sus propias ideas respecto a cuáles deberían ser las características especiales.
Hofstadter propone que el software que contiene un «loop extraño» guarda parecido con la conciencia. En un loop extraño, las cosas se hallan encajadas unas dentro de otras de tal forma que una cosa interior es igual que una exterior.
Si desciendes en paracaídas sobre una ciudad, aterrizas en un tejado, accedes al edificio por la trampilla que hay en el tejado, entras en una habitación, abres la puerta de un armario, te metes dentro y descubres que el armario no tiene suelo y que estás cayendo de nuevo en el cielo inmenso en dirección a la ciudad, estás en un loop extraño. La misma idea tal vez se pueda aplicar también a los fenómenos mentales, cuando pensamientos dentro de otros pensamientos conducen a los pensamientos originales. Tal vez ese proceso guarda relación con la conciencia de uno mismo y con lo que significa ser una persona.
Un tercer estilo del computacionalismo se encuentra en los círculos de la web 2.0. En este caso, cualquier estructura de información que puede ser percibida por algún humano real como si también fuera una persona es una persona. Esta idea constituye en esencia una recuperación de la prueba de Turing. Si puedes percibir que la mente colmena te recomienda música, por ejemplo, entonces la colmena es en efecto una persona.
Tengo que reconocer que ninguna de las tres teorías del computacionalismo me parece útil cuando adopto el papel de científico.
La primera idea, que en el software cantidad equivale a calidad, es especialmente irritante, habida cuenta de que un informático pasa gran parte de su tiempo enfrentándose a los sinsabores del software —el que sabemos crear actualmente, al menos— cuando se hace más grande.
La segunda idea tampoco es útil. Resulta fascinante e ingenioso crear software con autorrepresentaciones y curiosas estructuras en loop. De hecho, he puesto en práctica la situación hipotética del salto en paracaídas en un mundo virtual. Nunca he observado ningún cambio profundo en las capacidades de los sistemas de software basados en un grado mejorado de ese tipo de artificios, aunque hay una nutrida comunidad de investigadores de inteligencia artificial que esperan que algún día aparezca ese beneficio.
En cuanto a la tercera idea —la versión pop de la prueba de Turing—, mi motivo de queja debería estar claro a estas alturas. La gente puede creer en toda clase de seres ficticios, pero cuando esos seres se perciben como habitando las herramientas de software a través de las cuales vivimos nuestras vidas, tenemos que transformarnos a nosotros mismos de modo lamentable para respaldar nuestras fantasías. Nos volvemos grises.
Pero hay más formas de pensar en las personas como seres especiales desde el punto de vista computacional.
El enfoque computacional que prefiero para reflexionar sobre las personas, en las ocasiones en que esa reflexión me parece adecuada, es lo que yo llamo «realismo». La idea es que los humanos, considerados como sistemas de información, no fueron diseñados ayer, y que no son los juguetes abstractos de un ser superior, como un programador de la web 2.0 en el cielo o un jugador cósmico de Spore. En cambio, creo que los humanos son el resultado de miles de millones de años de estudio implícito y progresivo en la escuela de los golpes duros. La estructura cibernética de una persona ha sido perfeccionada gracias a una fricción muy grande, muy larga y muy profunda con la realidad física.
Desde este punto de vista, lo que puede dotar de significado a los bits es que sus patrones han sido creados laboriosamente a partir de tantas fricciones con la realidad que ya no son abstraíbles, sino una continuación no abstracta de la realidad.
El realismo se basa en las características específicas, pero todavía no sabemos —y puede que no sepamos nunca— las características concretas de qué es ser persona desde un punto de vista computacional. Lo mejor que podemos hacer en la actualidad es engancharnos con el tipo de narración con el que a veces se recrean los biólogos evolutivos.
Con el tiempo, los datos y conocimientos podrían dotar la historia de mayor especificidad, pero por el momento al menos podemos construir una historia plausible de nosotros mismos en términos de historia natural computacional a gran escala. Un mito, una leyenda de la creación, puede establecerse por un tiempo, con el fin de brindarnos una forma de pensar computacionalmente que no sea tan vulnerable a la confusión causada por nuestras ideas sobre los ordenadores ideales (es decir, los que solo tienen que ejecutar pequeños programas informáticos).
Un acto de narración semejante es una especulación, pero una especulación con un propósito. Una ventaja de este enfoque es que las características específicas tienden a ser más llamativas que las generalidades, de modo que en vez de algoritmos y ordenadores hipotéticos y abstractos, pensaremos en pájaros cantores, cefalópodos cambiantes y metáforas shakespearianas.
Donde se presenta una alternancia pragmática entre distintas filosofías (en lugar de la exigencia de que se aplique una única filosofía en todas las épocas). El computacionalismo se aplica a la especulación naturalista acerca del origen de la semántica.
En enero de 2002 me pidieron que diera una charla inaugural y una actuación para la Asociación Nacional de Comerciantes de Música[17], la feria anual para fabricantes y vendedores de instrumentos musicales. Lo que hice fue crear un ritmo acompasado poniendo las caras graciosas más extremas de las que fui capaz en rápida sucesión.
Un ordenador veía mi cara a través de una cámara digital y generaba distintos sonidos de percusión, todos infames, dependiendo de la cara que reconocía en cada momento[18]. (Llevar un ritmo con la cara es un truco nuevo y raro; ya me imagino a toda una generación de jóvenes adoptando su práctica en masa en cualquier momento).
Se trata del tipo de acto en apariencia ridículo que debería tomarse en serio como indicador de un cambio tecnológico. En los próximos años, las tareas de reconocimiento de patrones tales como la detección de movimiento facial serán un lugar común. En un primer nivel, esto significa que tendremos que reconsiderar las políticas de privacidad, ya que hipotéticamente una red de cámaras de seguridad podría determinar de manera automática dónde está todo el mundo y qué caras está poniendo, pero hay muchas otras posibilidades. Imagínate que tu avatar de Second Life (o, mejor aún, en una realidad virtual inmersiva plenamente desarrollada) reflejara las sutilezas de tus expresiones faciales en todo momento.
Pero hasta hace poco los ordenadores ni siquiera podían captar una sonrisa. Las expresiones faciales se hallaban enterradas bien profundo en el ámbito impreciso de la cualidad, totalmente alejadas del otro lado, el dominio de la cantidad, descifrado al infinito. Ninguna sonrisa era exactamente igual que otra, y no había forma de saber exactamente lo que las sonrisas tenían en común. La semejanza era una percepción subjetiva de interés para los poetas… e irrelevante para los ingenieros de software.
Aunque todavía quedan muchísimas cualidades de la experiencia que no se pueden representar en el software empleando las técnicas conocidas, los ingenieros por fin han adquirido la capacidad de crear software que puede representar una sonrisa, y de programar un código que capta al menos parte de lo que tienen en común todas las sonrisas. Se trata de una transformación imprevista en nuestras capacidades que tuvo lugar en torno al cambio de siglo. Yo no estaba seguro de que viviría para verlo, pero no deja de sorprenderme que los ingenieros y científicos que me encuentro de vez en cuando no sean conscientes de lo ocurrido.
La tecnología de reconocimiento de patrones y la neurociencia se están desarrollando a la par. El software que yo utilicé en el acto de la ANCM fue un ejemplo perfecto de esa interrelación. La neurociencia puede servir de inspiración a la tecnología práctica con bastante rapidez. El proyecto original fue llevado a cabo en los años noventa bajo los auspicios de Christoph von der Malsburg, un neurocientífico de la Universidad del Sur de California, y sus alumnos, sobre todo Hartmut Neven. (Von der Malsburg quizá sea más conocido por la observación crucial que realizó a principios de los ochenta, cuando advirtió la importancia del disparo sincrónico —es decir, cuando varias neuronas se activan en el mismo momento— en el funcionamiento de las redes neuronales).
En este caso, Von der Malsburg estaba intentando formular hipótesis sobre qué funciones son realizadas por determinadas zonas de tejido en la corteza visual: la parte del cerebro que recibe primero información de los nervios ópticos. Todavía no existen instrumentos que puedan medir en detalle lo que está haciendo una red neuronal grande y compleja, sobre todo cuando es parte de un cerebro vivo, de modo que los científicos tienen que hallar formas indirectas de poner a prueba sus ideas sobre el funcionamiento del cerebro.
Una forma de hacerlo es llevar la idea a un software y ver si funciona. Si una hipótesis sobre los procesos de una parte del cerebro acaba sirviendo de inspiración a una tecnología, la hipótesis recibe un buen impulso. Pero la intensidad de ese impulso no está clara. La neurociencia computacional tiene lugar en un margen impreciso del método científico. Por ejemplo, si bien el software de detección de expresiones faciales parece disminuir el grado de ambigüedad presente en la aventura humana, en realidad añade más ambigüedad de la que resta. Eso se debe, curiosamente, a que alienta a los científicos e ingenieros a colaborar en proyectos en los que la ciencia adopta poco a poco métodos que se asemejan ligeramente a la poesía y la narración. Las reglas son un poco confusas, y seguramente seguirán así hasta que dispongamos de mejores datos sobre el funcionamiento de las neuronas en un cerebro vivo.
Por primera vez, al menos podemos bosquejar razonablemente la historia que explica cómo el cerebro reconoce las cosas del mundo —tales como las sonrisas—, aun cuando no estemos seguros de si la historia es verdadera. Esta es la historia.
Empezaré con un recuerdo de la infancia. Cuando era niño, en el desierto del sur de Nuevo México, comencé a fijarme en las marcas que dejaban los neumáticos de los coches que pasaban por los caminos de tierra. Los caminos tenían hileras onduladas, como una especie de corderoy, y parecían una secuencia infinita de badenes que aparecían de forma natural. Su espaciado estaba determinado por la velocidad promedio de los conductores.
Cuando la velocidad coincidía con el promedio, los baches se sentían menos. No se podían ver los baches salvo al atardecer, cuando los rayos de luz roja horizontal resaltaban las irregularidades del terreno. Al mediodía había que conducir con cuidado para evitar la información oculta del camino.
Los algoritmos digitales deben abordar el reconocimiento de patrones de una forma parecida, indirecta, y a menudo tienen que recurrir a un procedimiento común que es un poco como pasar con neumáticos virtuales sobre baches virtuales. Se llama «transformada de Fourier». Una transformada de Fourier detecta la actividad que hay a determinadas «velocidades» (frecuencias) en un bloque de información digital.
(Piensa en el ecualizador gráfico de los reproductores de audio, que muestra la intensidad de la música en diferentes bandas de frecuencia. La transformada de Fourier es lo que permite separar las bandas de frecuencia).
Por desgracia, la transformada de Fourier no es lo bastante poderosa como para reconocer una cara, pero existe una transformada relacionada, más sofisticada, la transformada sinuosa de Gabor, que nos permite recorrer la mitad de camino. Este proceso matemático identifica irregularidades individuales de acción a frecuencias particulares en lugares particulares, mientras que la transformada de Fourier se limita a indicar las frecuencias que están presentes en general.
Existen sorprendentes paralelismos entre lo que funciona en la ingeniería y lo que se observa en el cerebro humano, incluyendo una dualidad platónico/darwiniana: un recién nacido puede detectar una cara simple, esquemática, pero necesita ver gente para aprender cómo reconocer a los individuos.
Me complace informar que el grupo de Hartmut obtuvo unas puntuaciones sobresalientes en una competencia de reconocimiento facial patrocinada por el gobierno. El Instituto Nacional de Estándares y Tecnología pone a prueba los sistemas de reconocimiento facial con el mismo espíritu con el que se ponen a prueba los medicamentos y los coches: el público necesita saber cuáles son fiables.
De modo que ahora estamos empezando a tener teorías —o al menos somos capaces de relatar historias detalladas— acerca de la capacidad del cerebro para reconocer rasgos de su mundo, como es el caso de una sonrisa. Pero las bocas hacen más que sonreír. ¿Hay alguna forma de ampliar nuestra versión para que explique qué es una palabra y cómo un cerebro puede reconocer una palabra?
Resulta que la mejor forma de plantear esa pregunta puede ser pensar en un ámbito sensorial totalmente distinto. En lugar de imágenes o sonidos, sería mejor empezar por considerar los olores detectados por una nariz humana.
Durante veinte años más o menos, me dediqué a dar una conferencia en la que presentaba los fundamentos de la realidad virtual. Revisaba los principios básicos de la vista y el oído, así como del tacto y el gusto. Al final, comenzaban las preguntas, y una de las primeras solía referirse al olfato: ¿habrá olores en las máquinas de realidad virtual en un futuro cercano?
Tal vez, pero seguramente solo unos pocos. Los olores son fundamentalmente distintos a las imágenes o los sonidos. Estos últimos se pueden dividir en componentes primarios que a los ordenadores —y al cerebro— les resultan relativamente sencillos de procesar. Los colores visibles son simplemente palabras para diferentes longitudes de onda. Cada onda sonora está compuesta en realidad de numerosas ondas sinusoidales, cada una de las cuales se puede describir fácilmente de forma matemática. Cada una es como un tamaño de bache particular en las rutas-corderoy de mi infancia.
En otras palabras, tanto los colores como los sonidos se pueden describir con unos pocos números; un amplio espectro de colores y tonos es descrito por las interpolaciones entre esos números. La retina humana solo necesita ser sensible a unas cuantas longitudes de onda, o colores, para que nuestro cerebro procese las longitudes intermedias. Los gráficos informáticos funcionan de modo parecido: una pantalla de píxeles, cada uno de los cuales es capaz de reproducir el rojo, el verde o el azul, puede producir aproximadamente todos los colores que el ojo humano puede ver[19]. Se puede decir que un sintetizador musical genera muchas ondas sinusoidales y luego las distribuye en capas para crear una serie de sonidos.
Los olores son totalmente diferentes, como el método que tiene el cerebro para percibirlos. En lo más profundo del conducto nasal, cubierto por una membrana mucosa, se localiza una porción de tejido —el epitelio olfativo— salpicado de neuronas que detectan los químicos. Cada una de esas neuronas tiene proteínas ciatiformes llamadas receptores olfativos. Cuando una molécula particular cae por casualidad en un receptor con el que coincide, se activa una señal neuronal que se transmite al cerebro como un olor. Una molécula demasiado grande para encajar en uno de los receptores no tiene olor. El número de olores distintos está limitado únicamente por el número de receptores olfativos capaces de interactuar con ellos. Linda Buck, del Centro de Investigación del Cáncer Fred Hutchinson, y Richard Axel, de la Universidad de Columbia, ganadores del premio Nobel de Medicina en 2004, han descubierto que la nariz humana contiene aproximadamente mil tipos distintos de neuronas olfativas, cada uno de ellos capaz de detectar una serie particular de sustancias químicas.
Esto se suma a la idea de que hay una diferencia profunda en la estructura básica de los sentidos: una diferencia que da lugar a preguntas apremiantes acerca de la forma en que pensamos, y tal vez incluso acerca de los orígenes del lenguaje. No hay forma de interpolar dos moléculas olfativas. Cierto, los olores se pueden mezclar para formar millones de aromas. Pero los olores del mundo no se pueden descomponer en unos pocos números en un gradiente; no existe el «píxel olfativo». Considéralo de esta forma: los colores y los sonidos se pueden medir con reglas, pero los olores hay que buscarlos en el diccionario.
Es una lástima desde el punto de vista de un tecnólogo de la realidad virtual. Hay miles de olores básicos, muchos más que el puñado de colores primarios. Tal vez un día seamos capaces de conectar el cerebro de una persona para crear la ilusión del olor. Pero harían falta muchos cables para cubrir todas las entradas del diccionario olfativo mental. Por otra parte, el cerebro debe tener una forma de organizar todos esos olores. Tal vez los olores se ajustan a un patrón. Tal vez, después de todo, existe, en algún nivel, un píxel olfativo.
He debatido esta pregunta largo y tendido con Jim Bower, un neurocientífico computacional de la Universidad de Texas en San Antonio, más conocido por realizar modelos informático del cerebro muy precisos desde el punto de vista biológico. Desde hace algunos años, Jim y su equipo de laboratorio han estado trabajando para conocer el «diccionario olfativo» del cerebro.
Sospechan que el sistema olfativo está organizado de un modo que tiene poco que ver con la forma en que una sustancia química orgánica organiza las moléculas (por ejemplo, a partir del número de átomos de carbono en cada molécula). En cambio, se parece más a la forma compleja en que las sustancias químicas se asocian en el mundo real. Por ejemplo, muchas de las sustancias químicas malolientes —las sustancias químicas que activan las neuronas olfativas— están ligadas a las múltiples fases de descomposición o maduración de materiales orgánicos. Tal como parece, hay tres vías químicas principales de descomposición, cada una de las cuales parece definir una serie distinta de entradas en el diccionario cerebral de olores.
Jim cree que para resolver el problema de la olfacción —es decir, para que el mundo complejo de los olores sea rápidamente identificable—, el cerebro tiene que haber desarrollado un tipo específico de circuito neuronal. Ese circuito, según su hipótesis, formó la base de la corteza cerebral: la parte más grande de nuestro cerebro, y tal vez la más decisiva a la hora de configurar nuestros pensamientos. Por esa razón, Jim ha propuesto que nuestra forma de pensar está basada fundamentalmente en lo olfativo.
Un olor es una sinécdoque: una parte que representa al todo. Por consiguiente, el olor requiere información adicional de los demás sentidos. El contexto lo es todo: si estás con los ojos vendados en un cuarto de baño y tienes un buen queso francés debajo de la nariz, es posible que tu interpretación del olor sea muy distinta de la que resultaría si supieras que estás en una cocina. De igual modo, si puedes ver el queso, puedes estar bastante seguro de que lo que estás oliendo es queso, aunque te encuentres en un baño.
Recientemente, Jim y sus alumnos han estado estudiando el sistema olfativo de distintos animales en busca de pruebas de que la corteza cerebral como un todo surgió del sistema olfativo. Jim se suele referir a las partes olfativas del cerebro como la «vieja fábrica», pues son llamativamente similares de especie en especie, lo que hace pensar que la estructura tiene orígenes antiguos. Como el reconocimiento olfativo a menudo requiere información de otros sentidos, Jim tiene especial interés en saber cómo esa información se abre camino y se introduce en el sistema olfativo.
En los peces y los anfibios (los primeros vertebrados), el sistema olfativo se encuentra junto a zonas multimodales de la corteza cerebral, donde se solapan los procesos de los distintos sentidos. Lo mismo es aplicable a los reptiles, pero, además, su corteza tiene nuevas regiones en las que los sentidos se hallan separados. En los mamíferos, las imágenes, los sonidos y las sensaciones entrantes se someten a muchos pasos antes de acabar en la región de solapamiento. Piensa en el olfato como el centro urbano y en los otros sistemas sensoriales como zonas residenciales en crecimiento, que crecen a medida que el cerebro evoluciona y con el tiempo se vuelven más grandes que el antiguo centro.
Todo ello nos ha llevado a Jim y a mí a preguntarnos: ¿existe una relación entre el olfato y el lenguaje, ese famoso producto de la corteza cerebral humana? Tal vez la analogía del diccionario tiene una base física real.
El olfato, como el lenguaje, está compuesto de entradas en un catálogo, no de patrones infinitamente cambiantes. Además, la gramática del lenguaje es principalmente una forma de adecuar esas palabras del diccionario a un contexto más amplio. Tal vez la gramática del lenguaje se halla arraigada en la gramática del olor. Tal vez la forma en que utilizamos las palabras refleja la estructura profunda del modo en que nuestro cerebro procesa la información química. Jim y yo tenemos pensado poner a prueba esa hipótesis estudiando las propiedades matemáticas que surgen durante las simulaciones informáticas de la neurología de la olfacción.
Si esa investigación es un éxito, podría arrojar luz sobre otras relaciones en las que hemos reparado. Da la casualidad de que el sistema olfativo tiene realmente dos partes: una detecta los olores generales, y la otra, el sistema feromónico, detecta olores muy concretos e intensos que desprenden otros animales (por lo general de la misma especie), normalmente relacionados con el miedo o el apareamiento. Pero a la ciencia de la olfacción le falta mucho para estar resuelta, y hay una controversia profunda con relación a la importancia de las feromonas en los humanos.
El lenguaje ofrece un paralelismo interesante. Además del lenguaje normal que todos usamos para describir objetos y actividades, reservamos un lenguaje especial para expresar la emoción o el desagrado extremos, para advertir a otros que tengan cuidado o para captar la atención. Ese lenguaje recibe el nombre de insultos.
Existen caminos neuronales concretos relacionados con ese tipo de discurso; algunos pacientes con el síndrome de Tourette, por ejemplo, sueltan insultos de forma incontrolable. Y es difícil pasar por alto los muchos insultos relacionados con orificios o actividades que también emiten señales olfativas feromónicas. ¿Podría haber una conexión más profunda entre esos dos canales de «obscenidad»?
Hel lenwage ez algho eztrañoo. Seguramente puedes leer esta frase sin grandes problemas. Frase tampoco esta vez difícil.
Puedes perder el tiempo con la ortografía y el orden de las palabras y aun así hacerte entender. No debería sorprendernos: el lenguaje es lo bastante flexible como para evolucionar en una nueva jerga, dialectos e idiomas totalmente nuevos.
En los años sesenta, muchos de los primeros informáticos postularon que el lenguaje humano era un tipo de código que se podía poner por escrito de forma ordenada y concisa, de modo que se inició una carrera para descifrar el código. Si se podía descifrar, entonces un ordenador debería ser capaz de hablar con las personas. Pero ese objetivo final acabó siendo extremadamente difícil de conseguir. La traducción automática, por ejemplo, nunca llegó a despegar.
En la primera década del siglo XXI, los ordenadores se han vuelto tan potentes que ha sido posible cambiar de métodos. Un programa puede buscar correlaciones en grandes cantidades de texto. Aunque no sea posible captar todas las variaciones lingüísticas que pueden aparecer en el mundo real (como las rarezas que he utilizado antes como ejemplos), un número suficientemente grande de correlaciones acaba dando resultados.
Por ejemplo, imagínate que tienes una gran cantidad de texto en dos idiomas, como el chino y el inglés. Si empiezas a buscar secuencias de letras o caracteres que aparezcan en los textos en circunstancias parecidas, puedes empezar a crear un diccionario de correlaciones. Eso puede arrojar resultados significativos, aunque las correlaciones no siempre encajen perfectamente en un principio rígido de organización como una gramática.
Esos métodos toscos de traducción han sido objeto de demostraciones por parte de empresas como Meaningful Machines, donde estuve trabajando de asesor por un tiempo, y últimamente de Google y otras compañías. Pueden resultar increíblemente ineficaces, y a menudo requieren diez mil veces más trabajo de computación que los métodos anteriores, pero hoy día disponemos de ordenadores lo bastante grandes, de modo que ¿por qué no ponerlos a trabajar?
Liberado en internet, un proyecto así podría empezar por borrar las barreras entre idiomas. Si bien es poco probable que la traducción automática alcance el nivel de un traductor humano en un futuro cercano, podría mejorar lo suficiente —tal vez dentro de poco— para que países y culturas resulten más transparentes.
Estos experimentos en materia de variedad lingüística podrían también inspirar una mejor comprensión del origen del lenguaje. Una de las especulaciones evolutivas más convincentes de Darwin era que la música pudo haber precedido al lenguaje. Darwin estaba intrigado por el hecho de que muchas especies usaran el canto para las demostraciones sexuales y se preguntaba si las vocalizaciones humanas pudieron iniciarse también de ese modo. De lo que podría deducirse que las vocalizaciones se volvieron variadas y complejas solo con posterioridad, tal vez cuando el canto pasó a representar acciones más allá del apareamiento y los principios básicos de la supervivencia.
Es posible que el lenguaje no haya escapado por completo de sus orígenes. Teniendo en cuenta que uno puede hacerse entender aun hablando incorrectamente, ¿qué sentido tiene hablar correctamente? Tal vez hablar bien sigue siendo, en parte, una forma de exhibición sexual. Hablando bien no solo demuestro que soy un miembro inteligente e informado de la tribu, sino también que podría ser un compañero próspero y una pareja útil.
Tan solo un puñado de especies, incluidos los humanos y ciertas aves, pueden realizar una gran variedad de sonidos siempre cambiantes. La mayoría de los animales, incluidos nuestros parientes simios, tienden a repetir los mismos patrones sonoros una y otra vez. Es razonable suponer que un aumento en la variedad de sonidos tuvo que preceder la evolución del lenguaje, o al menos coincidir. Lo que nos lleva a otra pregunta: ¿qué es lo que hace aumentar la variedad de sonidos de una especie?
Casualmente hay un caso bien documentado de incremento de la variedad de canciones en circunstancias controladas. Kazuo Okanoya, del Instituto Riken de Tokio, comparó las canciones de dos poblaciones de aves: las isabelitas de Japón silvestres (Lonchura striata) y sus variante domesticada, el pinzón bengalí (Lonchura domestica). A lo largo de varios siglos, los criadores de pájaros criaron pinzones bengalíes, seleccionándolos únicamente por su apariencia. Ocurrió entonces algo curioso: los pinzones empezaron a emitir una variedad de trinos extraordinaria y cambiante, a diferencia de las isabelitas de Japón silvestres, que solo disponen de un número limitado de cantos. Los pájaros salvajes no amplían su registro vocal ni siquiera habiendo sido criados en cautiverio, de modo que el cambio era genético, al menos en parte.
La explicación tradicional de semejante cambio es que debe proporcionar una ventaja en la selección ecológica o la selección sexual. Sin embargo, en este caso, los pinzones estaban bien alimentados y no había depredadores. Mientras tanto, los criadores, guiándose únicamente por la coloración de las plumas, realizaban la selección de parejas.
En este punto hay que hablar de Terry Deacon, un científico que ha realizado contribuciones fundamentales en áreas muy distintas de la investigación. Es profesor de antropología de la Universidad de California en Berkeley y un experto en la evolución del cerebro; también está interesado en el origen químico de la vida y en el papel de las matemáticas en la aparición de estructuras complejas como el lenguaje.
Terry ofreció una solución poco convencional al misterio de la musicalidad del pinzón bengalí. ¿Y si hay determinados rasgos, incluido el estilo del canto, que tienden de forma natural a volverse menos constreñidos de generación en generación, pero que normalmente se mantienen bajo control por las presiones de la selección? Si las presiones desaparecen, las variaciones deberían aumentar rápidamente. Terry propuso que los pinzones desarrollaban una mayor variedad de cantos no porque eso les proporcionara una ventaja, sino simplemente porque eso resultaba posible en cautiverio.
En estado salvaje, los cantos seguramente tienen que ser rígidos para que las parejas se encuentren. Lo más probable es que los pájaros nacidos con una predilección genética por la innovación musical hayan tenido problemas para aparearse. Cuando los pinzones bengalíes experimentaban el lujo del apareamiento garantizado (siempre que fueran visualmente atractivos), su variedad de cantos estallaba.
Brian Ritchie y Simon Kirby, de la Universidad de Edimburgo, trabajaron con Terry para simular la evolución de las aves en un modelo informático, y la idea dio resultado, al menos en un mundo virtual. Se trata de un ejemplo más de cómo la ciencia se asemeja a la narración de historias cuando la ingeniería logra representar algo de la mecánica de las actividades humanas que antes eran subjetivas.
Los éxitos recientes en el uso de ordenadores para buscar correlaciones en fragmentos enormes de texto ofrecen una pista fresca sobre la importancia que pudo tener una explosión en la variedad de canciones en la evolución humana. Para ver el porqué, comparemos dos historias populares del nacimiento del lenguaje.
Según la primera historia, un protohumano dice su primera palabra para referirse a algo —por ejemplo, ma para referirse a «madre»— y se la enseña al resto de la tribu. Unas cuantas generaciones después, a alguien se le ocurre a para referirse a «agua». Al final, la tribu tiene suficientes palabras para componer un idioma.
Según la segunda historia, a los protohumanos les va tan bien que cada vez son más los que sobreviven, encuentran pareja y se reproducen. Emiten toda clase de sonidos extraños porque la evolución da rienda suelta a la experimentación, siempre y cuando no tenga un efecto negativo en la supervivencia. Mientras tanto, los protohumanos están haciendo muchas cosas en grupo, y sus cerebros empiezan a correlacionar ciertas vocalizaciones sociales distintivas con determinados sucesos. Poco a poco, comienzan a utilizar gran número de palabras aproximadas. Al principio no existen límites claros entre las palabras, las frases, la inflexión emocional y cualquier otra parte del lenguaje.
La segunda historia me parece más verosímil. Los protohumanos habrían estado haciendo algo similar a lo que están empezando a hacer ahora los grandes ordenadores, pero con las capacidades superiores de reconocimiento de patrones de un cerebro. Pese a que el lenguaje se ha enriquecido con el tiempo, nunca se ha vuelto totalmente preciso. La ambigüedad se mantiene hoy día y permite que el lenguaje evolucione y cambie. Cuando inventamos nuevas palabras de jerga, estamos repitiendo la segunda historia.
Aun cuando la segunda historia sucedió, y todavía está sucediendo, el lenguaje no se ha vuelto necesariamente más variado. Con el tiempo, pueden haber aparecido normas lingüísticas que han limitado la variedad. Tal vez esas normas posteriores nos ayuden a comunicarnos de forma más precisa o a sonar sensuales y distinguidos o, lo más probable, a ambas cosas. La variedad no siempre tiene por qué aumentar en todos los aspectos.
La variedad podría incluso disminuir con el tiempo. En el capítulo 9 he explicado cómo está afectando ahora la falta de innovación estilística a las canciones. Si reconoces que ha habido una disminución reciente de la variedad estilística, la siguiente pregunta es «¿Por qué?». Yo ya he apuntado que la respuesta puede estar relacionada con el problema de la liberación de fragmentos y la mente colmena.
Otra explicación, que también me parece posible, es que el cambio acaecido desde mediados de los ochenta se corresponda con la aparición de herramientas de edición digital, como MIDI, para la música. Las herramientas digitales tienen mayor impacto en los resultados que las herramientas anteriores: si te desvías del tipo de música para el que fue diseñada una herramienta digital, la herramienta se vuelve difícil de usar. Por ejemplo, hoy día es mucho más común que la música tenga el ritmo regular de un mecanismo de relojería. Esto puede deberse principalmente a que parte del software musical más utilizado es difícil de usar, e incluso puede producir fallos técnicos si se varía el tempo durante la edición. En la época predigital las herramientas también influían en la música, pero nunca de forma tan dramática.
En el capítulo 2 he argumentado que desde el punto de vista científico no se puede formular la siguiente pregunta: «¿Cuál es la naturaleza de la conciencia?». Ningún experimento puede demostrar siquiera que la conciencia exista.
En este capítulo he cambiado de sombrero y estoy describiendo el papel que desempeñan los modelos informáticos en la neurociencia. ¿Tengo que pretender que la conciencia no existe en absoluto mientras llevo este sombrero (seguramente un gorro lleno de electrodos)?
Esta es mi respuesta a esa pregunta: aunque es imposible captar la naturaleza de la conciencia, hay formas de aproximarse a ella. Por ejemplo, es posible preguntarse qué es el significado, aunque no podamos preguntarnos por la experiencia del significado.
V. S. Ramachandran, un neurocientífico de la Universidad de California en San Diego y el Instituto Salk, ha desarrollado un programa de investigación para abordar la pregunta sobre el significado con llamativa concreción. Como muchos de los mejores científicos, Rama (como le conocen sus colegas) se dedica a estudiar en su trabajo variantes muy complejas de lo que le despertaba curiosidad de niño. Cuando tenía once años se hacía preguntas sobre el sistema digestivo de la atrapamoscas Venus, la planta carnívora. ¿Se activan las enzimas digestivas de sus hojas con las proteínas, los azúcares o ambas cosas? ¿Engañaría la sacarina a sus bocas como engaña a nuestras papilas gustativas?
Más tarde, Rama se graduó y se dedicó a estudiar la vista y publicó su primer artículo en la revista Nature en 1972, cuando tenía veinte años. Es más conocido por un trabajo que coincide con mis intereses: el uso de espejos como forma de realidad virtual de baja tecnología para tratar el dolor de las extremidades imaginarias y la parálisis resultante de un derrame cerebral. Su investigación también ha dado pie a un fructífero diálogo continuo entre nosotros dos sobre el lenguaje y el significado.
Las zonas de la corteza cerebral están especializadas en sistemas sensoriales concretos, como la visión. También hay zonas que se superponen: las áreas multimodales que he mencionado en relación con el olfato. Rama está interesado en determinar cómo las zonas multimodales del cerebro pueden dar lugar a un elemento central del lenguaje y el significado: la metáfora.
El ejemplo canónico de Rama se resume en un experimento conocido como bouba/kiki. Rama propone a los sujetos de estudio dos palabras, ambas pronunciables pero carentes de significado en la mayoría de los idiomas: bouba y kiki.
A continuación les muestra a los sujetos dos imágenes: una es una forma de puerco espín puntiaguda y la otra una forma de nube redondeada. Entonces les pide que emparejen las palabras y las imágenes. Por supuesto, la figura puntiaguda se asocia con kiki y la nube se empareja con bouba. Esta correlación es multicultural y parece ser una verdad general para toda la humanidad.
El experimento de bouba/kiki aísla una forma de abstracción lingüística. La «boubacidad» o la «kikicidad» surgen de dos estímulos que por lo demás son totalmente distintos: una imagen formada en la retina frente a un sonido activado en la cóclea del oído. Dichas abstracciones parecen estar relacionadas con el fenómeno mental de la metáfora. Por ejemplo, Rama considera que los pacientes que tienen lesiones en una zona cerebral multimodal llamada lóbulo parietal inferior tienen dificultades para realizar el experimento de bouba/kiki y para interpretar proverbios o historias con significados no literales.
Los experimentos de Rama parecen indicar que algunas metáforas se pueden considerar formas moderadas de sinestesia. En sus formas más severas, la sinestesia es una anomalía neurológica intrigante en la que los sistemas sensoriales de una persona están cruzados: por ejemplo, un color puede ser percibido como un sonido.
¿Qué conexión hay entre las imágenes y los sonidos del experimento de Rama? Bueno, desde un punto de vista matemático, tanto kiki como la forma puntiaguda tienen elementos «afilados» que no son tan marcados en bouba; los mismos elementos afilados están presentes en la lengua y los movimientos de la mano necesarios para emitir el sonido de kiki o dibujarlos.
Rama propone que la abstracción multimodal —la capacidad para establecer conexiones consistentes entre sentidos— podría haberse desarrollado en los primates inferiores como una forma de agarrarse mejor a las ramas. Así es como pudo haber ocurrido: la zona multimodal del cerebro pudo haberse desarrollado para asociar una imagen oblicua percibida por la retina (provocada por la visión de una rama inclinada) con una secuencia «oblicua» de contracciones musculares (que lleva al animal a agarrar la rama torcida).
Luego la capacidad de remapeo fue asignada a otros tipos de abstracciones en las que destacan los humanos, como la metáfora de bouba/kiki. Se trata de un fenómeno común en la evolución: una estructura preexistente, ligeramente modificada, adopta funciones paralelas pero al mismo tiempo distintas.
Pero Rama también se pregunta por otras clases de metáforas que no entran de forma clara en la categoría bouba/kiki. Según su ejemplo favorito, Shakespeare hace declarar a Romeo que Julieta es «el sol». No existe ninguna dinámica evidente del tipo bouba/kiki que una a una joven heroína romántica condenada con una esfera brillante del cielo, y sin embargo la metáfora resulta inmediatamente clara para todo el mundo.
Hace pocos años, cuando Rama y yo coincidimos en una conferencia en la que los dos seríamos expositores, le hice una sencilla propuesta para ampliar la idea de bouba/kiki a Julieta y el sol.
Imagínate que tuvieras un vocabulario de tan solo cien palabras. (Esta experiencia te resultará familiar si has viajado a alguna región cuyo idioma no hablas). En ese caso, tendrías que utilizar creativamente tu pequeño vocabulario para arreglártelas. Ahora lleva esa condición a un extremo. Imagínate que tuvieras un vocabulario de tan solo cuatro nombres: kiki, bouba, Julieta y sol. Cuando las opciones son reducidas, se amplifica la importancia de lo que de otra forma podría parecer una sinestesia trivial o de otros elementos vulgares.
Julieta no es puntiaguda, de modo que combina mejor con bouba o el sol, ambos redondeados mejor que con kiki. (Si Julieta fuera dada a estallidos de ira o sonidos agudos, kiki supondría un competidor, pero no es el caso de la joven). Hay más coincidencias menores que emparentan a Julieta con el sol antes que con bouba.
Si hay que ampliar un pequeño vocabulario para que cubra una gran porción de terreno, la más mínima diferencia entre las cualidades de las palabras supone prácticamente un mundo de distancia. El cerebro es tan proclive a las asociaciones que amplificará cualquier posible vínculo por mínimo que sea para conseguir uno utilizable. (La metáfora tiene muchísimas más posibilidades de lo que parece en la pieza de teatro, por supuesto. Julieta se oculta como el sol, pero cuando muere, no regresa como lo hace el sol. O bien quizá el arquetipo de Julieta regresa una y otra vez, como el sol. Una buena metáfora surge en una comunidad creciente de ideas que interactúan entre ellas).
Asimismo, una gran parte del argot más expresivo proviene de personas con una educación limitada que hacen un uso creativo de las palabras. Esto se puede aplicar a lenguas pidgin, la jerga de la calle, etc. Las palabras más evocadoras a menudo son las más comunes, utilizadas en los contextos más amplios. Por ejemplo, nu?, en yiddish, y «pues», en español.
Uno de los motivos por los que me fascina la metáfora del sol es que se relaciona con un conflicto que ha estado en el seno de la informática desde su origen: ¿puede describirse el significado de forma compacta y precisa, o es algo que solo puede aparecer en una forma aproximada basada en las asociaciones estadísticas entre grandes cantidades de componentes?
Las expresiones matemáticas son compactas y precisas, y la mayoría de los primeros informáticos daban por sentado que al menos parte del lenguaje debía hacer gala de esas mismas cualidades.
He descrito anteriormente cómo los enfoques estadísticos de tareas como la traducción automática parecen estar funcionando mejor que los compactos y precisos. También he dado razones en contra de la probabilidad de un vocabulario inicial pequeño, incipiente y bien definido en la evolución del lenguaje y a favor de un vocabulario en vías de desarrollo que nunca llegó a ser definido con precisión.
Sin embargo, existe al menos otra posibilidad que no he descrito antes: el vocabulario puede estar en vías de desarrollo, pero también podría intervenir un factor externo que en un principio hace difícil que un vocabulario crezca tanto como lo haría si el proceso de desarrollo lo estimulara sin obstáculos.
La dinámica de bouba/kiki, junto con otros procesos de detección de semejanzas del cerebro, se puede considerar la base de la creación de una serie infinita de metáforas, que podrían equivaler a un vocabulario ilimitado. Pero si esta explicación es acertada, la metáfora del sol podría darse únicamente en una situación en que el vocabulario está al menos algo limitado.
Imagínate que tuvieras una capacidad ilimitada de vocabulario al mismo tiempo que inventas más lenguaje. En ese caso podrías crear una palabra nueva, arbitraria, para cada cosa nueva que tuvieras que decir. Un vocabulario comprimido podría generar palabras menos perezosas y más evocadoras.
Tal vez la capacidad cerebral modesta de los primeros homínidos fue el origen de la limitación del tamaño del vocabulario. Fuera cual fuese la causa, para que aparezca un lenguaje expresivo podría ser necesario un vocabulario inicialmente limitado. Por supuesto, el vocabulario siempre puede crecer más adelante, una vez que el lenguaje se ha establecido. El inglés moderno tiene un vocabulario enorme.
Si las nubes informáticas se volvieran realmente infinitas, existiría un peligro hipotético de que todas las interpolaciones posibles de palabras —novelas, canciones y expresiones faciales— cohabitaran en el éter en una infinita Wikipedia borgiana. Si eso ocurriera, todas las palabras perderían el significado, y toda forma de expresión con significado se volvería imposible. Pero, por supuesto, la nube nunca será infinita.