Actualmente se hablan en el mundo unas 5000 lenguas distintas. Algunas las usan cientos de millones de personas, pero la mayoría tienen una difusión mucho menor. Hay lenguas que se limitan a varios cientos de personas, y es muy probable que desaparezcan completamente dentro de pocas generaciones. Conocemos muchas que ya han desaparecido o están a punto de hacerlo.

No es necesario ser lingüistas para darse cuenta de que ciertas lenguas están muy emparentadas entre sí. Lo vemos, por ejemplo, con el francés y mi lengua materna, el italiano, y todavía mejor con el español y el italiano. Si voy a España o a Portugal me las arreglo bastante bien aunque no conozca sus lenguas, hasta que me tropiezo con palabras que son idénticas o muy parecidas, pero tienen otro significado, a veces muy distinto de una lengua a otra, como burro, que en italiano quiere decir mantequilla; es una de esas palabras llamadas «falsas amigas». La razón del parecido es evidente: todas estas lenguas derivan de una fuente común, el latín. Una semejanza de este tipo une las lenguas de origen germánico, las lenguas escandinavas, el alemán, el holandés, el flamenco y el inglés. También el grupo de las lenguas eslavas, en el este de Europa, muestra parecidos muy evidentes. En el siglo XVIII ya se advirtió que la lengua india clásica, el sánscrito, se parece a las lenguas europeas antiguas y también a las modernas. Y, como sucede con casi todos los descubrimientos o invenciones, esta idea ya había tenido sus pioneros varios siglos antes.

En el siglo pasado hubo un intenso trabajo lingüístico para entender el parentesco entre las lenguas de este grupo, que precisamente ha recibido el nombre de familia de lenguas indoeuropeas. Se empezó a reconocer la existencia de muchas otras familias (que algunos lingüistas prefieren llamar phyla, en singular phylum). Al igual que los taxonomistas de las plantas y los animales, hemos reconstruido los árboles que los lingüistas llaman «genéticos», equivalentes a los árboles filogenéticos o evolutivos en biología. Pero los lingüistas han encontrado dificultades para remontarse más allá de las familias. Aunque muchos de ellos han tratado de establecer parentescos más lejanos, hasta el momento ha sido imposible llegar a un acuerdo sobre un solo árbol que incluya a todas las familias existentes. Muchos lingüistas piensan que ni siquiera podemos saber si las lenguas modernas tienen uno o varios orígenes. La dificultad estriba en la gran velocidad evolutiva de las lenguas.

En la figura 12 vemos la distribución geográfica de las familias según la clasificación propuesta recientemente por M. Ruhlen, la más moderna y completa de todas. Para hacernos una idea de las diferencias de opinión entre los lingüistas, cabe destacar que, en general, las familias peor conocidas (como la de las lenguas de los aborígenes australianos y de Nueva Guinea) son las que se consideran más difíciles y sobre las que hay menos acuerdo. También sobre las otras familias hay distintas opiniones, pero conviene citar por lo menos otro ejemplo de discordia, aún muy viva y candente, que desató una guerra casi centenaria entre los lingüistas norteamericanos a propósito de los indios de América. En ensayos anteriores, un famoso lingüista, Edward Sapir, y un conocido antropólogo, Alfred Lewis Kroeber, habían tratado de demostrar, basándose en las semejanzas entre muchas lenguas amerindias, que podían formar un escaso número de familias. Sus afirmaciones tropezaron con grandes obstáculos. La mayoría de los lingüistas norteamericanos se lanzaron decididamente al ataque contra estos intentos de unificación. Empezó un nuevo ciclo con Joseph H. Greenberg, de la Universidad de Stanford. En 1987 publicó un libro en el que demuestra que las lenguas habladas por los americanos precolombinos se pueden agrupar en tres familias: las 9 lenguas esquimales, las 34 lenguas na-dené, habladas sobre todo en el noroeste de América del Norte, y el resto, las lenguas amerindias propiamente dichas, que incluyen todas las demás (nada menos que 583). También propuso (1989), junto con algunos biólogos norteamericanos (Turner y Zegura), que esta clasificación corresponde a las que se pueden obtener con las mismas poblaciones, empleando ya sea los datos de los dientes modernos y fósiles, ya sea los de los grupos sanguíneos y las proteínas. Además, parece que estas tres familias lingüísticas corresponden a las tres migraciones más importantes, que también se pueden reconocer arqueológicamente, y que se sucedieron en el orden inverso al que he citado antes: los amerindios al principio, luego los na-dené y por último los esquimales. Los primeros fueron los que ocuparon toda América, mientras que los segundos y los terceros se quedaron más cerca de su tierra de origen, Siberia.

Hemos confirmado las observaciones genéticas, y hemos visto que desde un punto de vista genético los amerindios se dividen en tres grupos muy distintos, los mismos propuestos por Greenberg. Cabe señalar que los amerindios propiamente dichos son un grupo de genética muy variable, y los subgrupos lingüísticos, sobre todo en América del Sur, no coinciden totalmente con los que propone la genética. Es probable que los amerindios llegaran a América en una migración más antigua y más complicada que la de los na-dené y los esquimales, y quizá con migraciones múltiples. La fecha que parece más acorde con los datos genéticos es un poco más de 30 000 años, y puede tratarse del promedio de varias migraciones, o por lo menos de las más importantes. Es interesante comprobar, además, que los na-dené del norte y los del sur (apaches y navajos) se parecen entre sí también desde el punto de vista genético, aunque en los últimos se advierte una absorción de cierta cantidad de flujo genético de los grupos amerindios con los que se encontraron antes de asentarse en su residencia actual.

La publicación del libro de Greenberg desencadenó casi de inmediato otra guerra entre los lingüistas norteamericanos contra la unidad de la mayor parte de las lenguas amerindias sugerida por este investigador. Un numeroso grupo se reunió y afirmó que en las lenguas amerindias es imposible reconocer menos de sesenta agrupamientos taxonómicos. Es sabido que los taxonomistas se suelen dividir en lo que en inglés se llama lumpers (que tienden a reconocer pocos grupos) y splitters (que, por el contrario, tienden a hacer muchísimos). Probablemente la tendencia sintética y la analítica forman una polaridad básica del espíritu humano, pero en este caso hay diferencias metodológicas que el libro de Greenberg examina y pueden explicar, en gran medida, la falta de acuerdo. Yo no soy lingüista, pero puedo entender un razonamiento general sobre el método, y me parece que los argumentos de Greenberg son convincentes. Además, Greenberg cuenta con una ventaja que podríamos llamar histórica, pues hace más de treinta años hizo una clasificación de las lenguas africanas en cuatro familias: la afroasiática, que comprende todas las lenguas semíticas, las que se hablan en el norte de África y la mayor parte de las lenguas etíopes; la nilosahariana, hablada en el curso alto del Nilo y en el sur del Sáhara; la de las lenguas níger-kordofanas, que incluyen las lenguas del oeste, centro-oeste y sureste de África, incluyendo las lenguas bantúes que recientemente tuvieron una gran difusión; y por último, la familia de las lenguas khoisánidas, habladas por los hotentotes y los bosquimanos. Al principio la clasificación de Greenberg provocó una disputa entre los lingüistas que poco a poco se fue aplacando, y de la que salió vencedor absoluto.

Vale la pena tomar en consideración algunas de las objeciones que le hicieron a Greenberg sus colegas americanistas, pues ayudan a entender las dificultades objetivas que existen en el análisis de la evolución lingüística y otras, menos objetivas, generadas por algunas posiciones metodológicamente menos correctas de sus críticos. Empecemos por las dificultades objetivas: la evolución lingüística es muy rápida, y con un análisis más superficial parece que las lenguas más alejadas no tienen ningún parecido entre sí. El paso del tiempo es responsable de cambios fonéticos que pueden ser muy grandes; a menudo también hay cambios semánticos, y ambos dificultan la reconstrucción de los parecidos. La gramática también evoluciona, aunque por término medio lo hace más despacio, y por lo tanto permite reconocer parecidos más antiguos. Pero, bajo la presión de unos cambios rápidos, una lengua llega a ser incomprensible en un plazo bastante corto. Los romanos no entenderían las lenguas que descienden del latín y hoy se hablan en Europa. Tras una separación de 5000 o 10 000 años, las palabras que muestran un parentesco reconocible se reducen a un 20 o un 10 por 100. Por suerte, algunas palabras y ciertas partes de la oración poseen una velocidad evolutiva más lenta, y facilitan la reconstrucción de parentescos a veces muy lejanos. Pero cada cambio lingüístico tiene efectos en otros niveles, lo que dificulta el análisis. En una lengua, como observan los lingüistas, «todo está atado junto» (tout se tient).

Muchos lingüistas miden el parecido entre las lenguas basándose en el porcentaje de palabras, de una lista estándar, que tienen un origen común reconocible. Los inventores de este método fueron más allá, suponiendo que la probabilidad de que una palabra cambie de significado sea constante en el tiempo. Se puede confeccionar un gráfico de la razón esperada al comparar dos lenguas, entre el porcentaje de palabras que han cambiado de sentido y el tiempo transcurrido desde su separación. El gráfico se puede calibrar utilizando la comparación entre lenguas separadas por un intervalo de tiempo conocido, por ejemplo el de la transición del latín a las lenguas romances (italiano, español, francés, etc.), y calcular la fecha aproximada de la separación de dos lenguas modernas. Este método, que ha recibido el nombre de glotocronología (o estadística léxica), utiliza, pues, un «reloj lingüístico», muy cercano conceptualmente al llamado «reloj molecular» de la biología. La ventaja en este último caso es que se pueden utilizar muchos ácidos nucleicos y proteínas distintos para hacer cálculos independientes de la separación entre dos especies. Esto hace posible la comparación entre distintas fuentes de información, con el consiguiente refuerzo mutuo de las conclusiones, imposible en lingüística. El método es menos riguroso que en biología, y por desgracia más difícil de aplicar a períodos más largos, ya que pasados unos 5000-6000 años desde la separación de dos lenguas, el porcentaje de palabras que muestran parentesco es demasiado bajo para resultar estadísticamente fiable. La lista sólo se puede ampliar a duras penas, pues ya se ha confeccionado eligiendo las palabras que cambian más despacio.

Algunos lingüistas sostienen que, antes de demostrar los parentescos entre los grupos de lenguas, familias, subfamilias u otros, sobre todo si están muy alejados, habría que reconstruir la «protolengua», es decir, las palabras del lenguaje común de origen, que generalmente es hipotético. En esto encontramos otra afinidad con la biología, donde se comparan las secuencias de ADN de especies distintas y se busca una secuencia de «conformidad», o sea, la secuencia compartida por todas las especies como probable secuencia ancestral. Pero en lingüística la búsqueda de la conformidad es menos rigurosa, porque la variación es mucho mayor que en biología y la conformidad después de una evolución de varios miles de años nunca tiene una probabilidad elevada de permitir una representación correcta de la palabra ancestral. En biología, al estudiar algunas proteínas muy importantes para el organismo, que no podrían tolerar cambios, se puede hallar exactamente la misma secuencia en organismos separados miles de millones de años en su evolución. Es verdad que si se reconstruyeran las protolenguas, el análisis comparativo sería más fácil, pero al imponer este paso como necesario se limita seriamente el alcance del método, porque hoy por hoy sólo se conocen las protolenguas de un reducido número de familias. También es probable que ciertas reconstrucciones sean arbitrarias, o al menos que tengan una escasa probabilidad de ser exactas. El método de Greenberg evita el paso por la protolengua. Quizá tenga el inconveniente de ser algunas veces más subjetivo, pero puede ir mucho más lejos que los métodos utilizados por los especialistas de las lenguas amerindias.

Dentro de los límites actuales, creo que la clasificación de Ruhlen (un alumno de Greenberg) da suficientes garantías. Naturalmente la definición de «familia» nunca es del todo segura. De modo que carece de importancia que una familia para un autor sea subfamilia para otro, y una superfamilia para un tercero. Por desgracia, la clasificación moderna se detiene en el nivel de familia, y la de Ruhlen da diecisiete, menos que los demás autores. También hay alguna superfamilia, pero, como ya he dicho, sólo con métodos lingüísticos no se llega a un árbol completo a partir de una lengua humana común.

Una de las superfamilias propuestas en las últimas décadas tiene un interés especial. Es un grupo del que hoy existen dos variantes, la nostrática y la eurasiática. Ruhlen explica su historia. La superfamilia nostrática, tal como fue descrita por el lingüista ruso Illich-Svitich y otros científicos rusos como Dolgopolvski, Gamkrelidze, Ivanov y otros, incluye las familias indoeuropea, urálica, altaica, afroasiática, dravídica y caucásica. Shevoroshkin añadió la familia amerindia definida por Greenberg. En cuanto a la superfamilia eurasiática de Greenberg, es parecida a la nostrática, y se distingue en parte de ella a causa de las definiciones de algunas de las familias, como la altaica. Abarca un área un poco más reducida que la de la nostrática, pues no incluye la familia afroasiática ni la dravídica que, según Greenberg, son de origen más antiguo.

Antes de pasar a otro asunto, quiero citar el hecho de que hay cinco o seis lenguas que no han encontrado sitio en las 17 familias de Ruhlen (ni en casi ninguna otra clasificación). Una de estas «islas» lingüísticas ya nos resulta familiar: es el vasco o euskera. Hablada por unos 25 000 franceses y millón y medio de españoles, esta lengua es probablemente un residuo de un período preneolítico, y quizá descienda de las lenguas habladas por los Cro-Magnon de hace 25 000 años y por los primeros europeos modernos que descendían de ellos. Pero desde luego ha cambiado de tal forma que los vascos modernos y los Cro-Magnon no se entenderían, y probablemente ni siquiera se percatarían de que sus lenguas están emparentadas si tuvieran la posibilidad de hablar unos con otros. Algunos lingüistas ven parecidos entre el euskera, el caucásico, las lenguas chinotibetanas y el na-dené (América del Norte). Basándose en datos que yo no puedo juzgar, Ivanov afirma que también la lengua sumeria, la etrusca y otras extinguidas pertenecían a la misma familia, una familia antigua que tal vez se extendiera a todo el norte de Europa y a Asia. La inclusión del euskera en este grupo hace pensar que esta lengua común se hablaba en la época en que el hombre moderno entró en Europa, hace 40 000 años. Eso es mucho tiempo para la evolución de las lenguas. La época en que se debió de originar el nostrático se sitúa entre 10 000 y 20 000 años atrás. En cuanto al origen de las lenguas del hombre moderno, no se pueden dar fechas seguras. Aunque hubiera habido más de un origen, existe una estructura común a todas las familias, y esto quizá sea suficiente para pensar que las lenguas habladas hoy descienden de una o varias de las que se hablaban en África en la época de la expansión del hombre moderno, de modo que África habría sido el punto de partida tanto de las poblaciones como de las lenguas modernas. Esta fecha puede variar entre 70 000 y 150 000 años. La primera cifra es un mínimo fijado por las fechas más antiguas de hallazgos de hombres modernos fuera de África. En China la primera fecha es de hace 67 000 años, lo que concuerda con la fecha de la primera llegada a Australia, hace entre 55 000 y 60 000 años. Es verdad que los primeros yacimientos del hombre moderno en Oriente Próximo son más antiguos, pero el hallazgo de neandertales en la misma área en fechas posteriores ha hecho pensar que la primera colonización moderna fuera de África no tuvo éxito. Los datos biológicos sobre la primera separación confirman el límite superior: 145 000 años es la fecha más reciente (febrero de 1995) proporcionada por el ADN mitocondrial, entre 74 000 y 99 000 años la proporcionada por el ADN nuclear, y 170 000, pero con un margen de error más grande que las anteriores, la proporcionada por el cromosoma Y (véase el final del capítulo 4).

Si no existe un árbol lo bastante fiable del origen de todas las lenguas, tampoco es seguro que el lenguaje tenga un solo origen. La mayoría de los lingüistas piensan que esta cuestión no se puede dilucidar. Es un poco como la cuestión de si hubo un solo origen de la vida sobre la Tierra. Muchos biólogos piensan que sí, ya que sólo existe un único tipo de aminoácidos sintetizados por las células vivas, mientras que podría haber dos, de estructura química opuesta. Greenberg, por su parte, destacó que por lo menos hay una etimología común a todas las familias lingüísticas: se trata de la raíz tik, que puede indicar ya sea un dedo, ya sea el número uno (una variación semántica que no necesita ser explicada, si pensamos en la forma de indicar el número uno con un gesto); en alguna lengua se encuentran otros cambios semánticos que todavía parecen aceptables, como mano o brazo. En francés tenemos doigt, que deriva de la raíz latina digit, y en italiano dito.

Partiendo de este ejemplo, dos lingüistas estadounidenses (Bengtson y Ruhlen) han propuesto otras raíces universales, o casi universales. Pero, sin duda, tendrá que pasar mucho tiempo para que estas investigaciones de última hora logren el acuerdo de los demás lingüistas. Desgraciadamente, el número de palabras con las que se puede contar para estas indagaciones es limitado. Por lo general, son palabras que indican partes del cuerpo, pronombres personales, algún que otro adverbio, los números uno, dos y tres, y pocas más. No es sorprendente que los nombres mejor conservados a lo largo de la evolución lingüística sean los que se aprenden primero (la mamá le enseña a su hijo: ojos, nariz, boca, etc.), pero hay otros muy importantes que sin duda existían en la vida paleolítica y han mantenido su relevancia hasta tiempos recientes, como «piojo». Sólo la invención de los insecticidas modernos nos ha librado de esta calamidad, y no por completo.

Comparación entre las familias lingüísticas y el árbol genético

Aunque aún no existe un árbol evolutivo completo de las familias lingüísticas, ya podemos comparar el árbol genético con lo que conocemos del árbol lingüístico. ¿Hay parecidos? Se puede ver que, aunque el árbol de las lenguas es incompleto, los parecidos son impresionantes.

En la figura 13, junto a las poblaciones que hablan lenguas pertenecientes a estas familias lingüísticas, se han colocado las propias familias. Vemos que a una familia muchas veces le corresponden una, dos, tres o incluso más ramas del árbol genético, otras veces una sola rama. Esto sucede con las 16 familias lingüísticas indicadas. La decimoséptima (lengua del Cáucaso) no está representada. En efecto, hay dos familias de lenguas caucásicas, la septentrional y la meridional, mientras que en el libro de Ruhlen aparece sólo una. Pero cuando se confeccionó este árbol genético no había suficientes caracteres genéticos para poder representar las poblaciones correspondientes a las dos familias caucásicas.

A veces una familia lingüística corresponde, en el árbol, a una sola rama genética, ya que las poblaciones que hablan estas lenguas han sido agrupadas juntas en el análisis genético. En efecto, tienen un gran parecido tanto genético como etnográfico, y están muy cerca geográficamente. Se trata, por ejemplo, de las lenguas bantúes, una rama de la familia níger-kordofana. Aunque la palabra «bantú» deriva de una clasificación lingüística, también es útil como clasificación biológica. Otros grupos genéticos se han reconocido a partir de datos lingüísticos, como los del sur de la India, que hablan lenguas dravídicas, y los indios americanos que hablan lenguas na-dené: estas poblaciones que pertenecen a la misma familia lingüística se parecen mucho entre sí, también en el aspecto genético.

Dado que en el árbol genético hay 42 poblaciones (algunas de ellas agrupadas como europeas) y 16 familias lingüísticas, por término medio tenemos varias poblaciones de este árbol que convergen en una sola familia lingüística. Cuando sucede esto, encontramos que las que pertenecen a la misma familia lingüística están muy cerca en el árbol genético. Este comportamiento se puede resumir diciendo que las familias lingüísticas tienden a unirse en la parte más baja del árbol genético, ya que las respectivas poblaciones biológicas tienen un parentesco biológico elevado. Por lo tanto, se podría utilizar el árbol genético para datar aproximadamente el origen de una familia lingüística. Encontramos que, con pocas excepciones (como veremos), estas fechas están comprendidas entre 6000 y 25 000 años, según las familias. Disponemos de muy pocas informaciones lingüísticas directas al respecto. Una vieja datación glotocronológica del origen de la familia indoeuropea sería de 6000 años, pero un análisis estadístico de Kruskal et al. (1971) demostró que los cálculos glotocronológicos de este orden de magnitud son bastante inferiores a los reales. Una datación con métodos más rigurosos da una estimación de 9000-10 000 años.

No obstante, hay excepciones a la regla de que las familias lingüísticas comprenden siempre poblaciones muy próximas en el árbol genético. Por ejemplo, los etíopes forman parte de la rama genética africana, pero hablan lenguas de la familia afroasiática, que está muy difundida en el norte de África, Arabia y Oriente Próximo, es decir, poblaciones que son genéticamente caucasoides. De hecho, los etíopes son un poco más africanos que los caucasoides en el plano genético, y más caucasoides que los africanos en el lingüístico. Otra excepción de esta clase son los lapones, que genéticamente forman parte de los caucasoides, de los que se separan en una rama muy alta en el árbol de la figura 12; pero hablan una lengua de la familia urálica, cuyos representantes más típicos se encuentran en el noreste de Rusia y el noroeste de Siberia, muy cerca de los Urales (que dan el nombre de la familia). Las poblaciones urálicas de Asia son genéticamente mongoloides, y los lapones son una mezcla de caucasoides (probablemente de origen escandinavo) y mongoloides (de origen siberiano), en la que prevalece el primer componente. Incluso sin analizar sus genes, que confirman este diagnóstico, se advierte en la variación de la piel, el cabello y los ojos, que cambian de color al pasar del tipo mongoloide al escandinavo.

Tanto en el caso de los lapones como en el de los etíopes, la explicación es sencilla, porque, como ya hemos observado, estas dos poblaciones derivan de dos mezclas genéticas bastante recientes: tipo europeo-siberiano los primeros, africano-árabe los segundos. En el árbol las dos poblaciones se sitúan en las ramas de donde procede la mayoría de sus genes, caucasoides los primeros y africanos los segundos, y sabemos que la mezcla genética tiende a formar ramas cortas en árboles NJ y a desplazar a las poblaciones mixtas hasta una posición muy alta en todos los árboles. Hay que añadir que si la mezcla genética tiende a reproducir exactamente las proporciones de las dos poblaciones ancestrales, las lenguas no se mezclan entre ellas con la misma facilidad que los genes. Al contrario, las poblaciones genéticamente mixtas tienden a mantener una sola de las dos lenguas de las poblaciones de origen. A veces la lengua de la población mixta no muestra ninguna alteración. Con más frecuencia se encuentran palabras, o a veces sonidos, que son préstamos de la otra lengua. La gramática, y en general toda la estructura de una lengua, resisten la mezcla mejor que el léxico. En cuanto a la historia de las dos mezclas, sabemos que en el primer milenio a.C. y en el primero d.C. hubo contactos muy estrechos entre árabes y africanos en Etiopía. Existió un imperio araboetíope, cuya capital fue primero Saba (en Arabia) y luego Axum (en Etiopía). De todos modos, es probable que los contactos empezaran antes de este período. También sabemos que los lapones están presentes en la región donde viven actualmente desde hace por lo menos 2000 años. En ambos casos, por lo tanto, hubo mucho tiempo para los intercambios genéticos entre las poblaciones en contacto. La mezcla genética estimada varía según la población, pero es fácil calcular que el genoma de origen de un pueblo que recibe de sus vecinos un flujo génico constante del 5 por 100 por generación, al cabo de 300 años habrá quedado reducido al 70 por 100. Este, exactamente, es el caso de los negros norteamericanos, que fueron llevados a América como esclavos desde finales del siglo XVI y recibieron un flujo génico de este orden de magnitud durante los tres siglos siguientes. Si este flujo continuara con la misma velocidad, los negros norteamericanos no conservarían más del 10 por 100 de sus genes originales, 1000 años después de su llegada a América. Lapones y etíopes, que estuvieron durante miles y miles de años en contacto con sus vecinos, pudieron conservar una parte mayor de sus genes originales porque, evidentemente, en cada generación recibieron un flujo génico más limitado de los pueblos vecinos.

También descubrimos otras excepciones a la correspondencia exacta entre el árbol genético y el árbol lingüístico, interesantes por cuanto se trata de esas excepciones que «confirman la regla». Los tibetanos se encuentran genéticamente en el grupo de los mongoloides del norte. Hablan lenguas chinotibetanas, como los chinos, pero los chinos de nuestro árbol proceden del sur de China, y genéticamente se parecen más a los mongoloides del sur. También en este caso la historia nos echa una mano. Según los historiadores chinos, los tibetanos partieron de China del norte en el siglo III a.C., como pastores nómadas, y se desplazaron al sur, al Tíbet. Allí conservaron sus lenguas originales después de la migración. La unificación de China empezó en el siglo III a.C. con la dinastía Qin (que se pronuncia chin, de ahí el nombre de China; duró bastante poco), y fue completada por la dinastía Han, que reinó en los cuatro siglos posteriores. Las dos dinastías reinaban en el norte, con capital en Xian, y fueron responsables de la difusión de su lengua, oriunda del norte de China, a casi todo el imperio chino. En los 2000 años siguientes hubo una diferenciación en muchas otras lenguas. En China, sobre todo en el sur, existen numerosas minorías étnicas (55 de ellas reconocidas legalmente), y cada una ha conservado su lengua original. La gran mayoría de los chinos (más del 90 por 100) se llama Han, y habla lenguas o dialectos originados en el norte, pero genéticamente suelen ser individuos con fisonomía parecida a la de las minorías étnicas locales. Pese a las migraciones interiores que se sucedieron en China durante más de 3000 años, el norte y el sur han conservado muchas de sus antiguas diferencias genéticas. Sólo los chinos del sur están representados en el árbol, y tienen parecidos con el sureste de Asia. Los chinos del norte, en cambio, se parecen más a los japoneses, los coreanos, los mongoles y los tibetanos.

Los intentos de reconstruir una parte del árbol lingüístico mediante la creación de las superfamilias nostrática y eurasiática, a las que se ha añadido la familia de los indios americanos, están representados gráficamente en el extremo derecho del conjunto de las familias lingüísticas, en el árbol de la figura 13. No hay una coincidencia completa entre las dos superfamilias. Fueron reconstruidas por investigadores independientes, que utilizaron diferentes métodos y materiales, pero tienen una unidad básica, y es muy probable que los investigadores del futuro resuelvan estas diferencias. Si juntamos ambas familias, su unión corresponde —con pocas excepciones— a la gran rama genética eurásica, que agrupa a caucasoides, mongoloides del norte e indios americanos. Esta rama se forma con la segunda horcadura, cuando los no africanos se separan en la rama de Europa-norte de Asia y la del sureste asiático (que también comprende Australia y Nueva Guinea).

En realidad, en el árbol genético hay un problema. El que aparece en la figura no coincide con el que se obtiene con otro método, antes mencionado, un método de mínima evolución propuesto por Nei y Saitou y conocido con las siglas NJ. El árbol de la figura se ha obtenido con el método UPGMA, y su primera ramificación es entre africanos y no africanos; luego, la segunda ramificación es la que separa el sureste asiático de Europa-norte de Asia-América del Norte. En cambio, en el árbol NJ la segunda ramificación separa Europa del resto. En la figura 2 hemos mostrado los dos árboles para que se puedan comparar. Cabe añadir que la diferencia no se debe a los marcadores usados en esa figura, porque se obtiene la misma diferencia entre los resultados de los dos métodos con los polimorfismos clásicos (grupos sanguíneos y enzimas) y con los microsatélites. De modo que el desacuerdo se debe a la diferencia de métodos. Yo me inclino decididamente por el método UPGMA, porque coincide con las fechas arqueológicas: Europa fue el penúltimo continente colonizado por el hombre moderno, o el último si, como sostienen algunos arqueólogos, América fue colonizada antes de 40 000 años atrás. Además, con el método NJ, Europa tiene una rama muy corta situada en el centro del árbol, un resultado constante con todos los marcadores. Esto tiene dos explicaciones. Según la primera, Europa siempre estuvo poblada por un número muy elevado de habitantes, por lo que tuvo una deriva genética nula. Esto es muy improbable, porque la agricultura no llegó a Europa antes que a los demás continentes, y sólo se practicó en el último quinto del tiempo en que ha estado habitada (es decir, en los últimos 8000 años). La densidad de población inicial debía de ser reducida, para que se pudieran afianzar, probablemente por deriva genética, unos marcadores prácticamente ausentes en otros lugares, como el Rh- y el tipo noreuropeo de fibrosis quística. La otra explicación es una mezcla entre pueblos de dos continentes vecinos: África y Asia. Sabemos que las mezclas genéticas acortan las ramas de los árboles obtenidos con métodos como NJ, pero en árboles de tipo UPGMA tienen efectos distintos, y que la mezcla entre una mayoría de asiáticos y una minoría de africanos podría explicar muy bien las frecuencias génicas observadas en Europa. Una parte de los genes europeos que aún no se conoce bien, pero sin duda es importante, llegó de Oriente Próximo, con la agricultura, y Oriente Próximo se encuentra geográficamente entre África y Asia. Esa fue la segunda contribución notable, procedente del exterior, a los genes europeos. La primera, llegada hace unos 40 000 años, quizá tuviera el mismo origen. Una población intermedia desde el punto de vista geográfico como la de Oriente Próximo recibe casi inevitablemente flujo génico de los dos vecinos que la tienen en medio como en un bocadillo, Asia y África. Si hubo mezcla genética entre África y Asia en la génesis de Europa, la genealogía NJ está equivocada. Por eso estoy convencido de que la genealogía sugerida por UPGMA es más sólida. El mapa del primer componente principal también muestra un gradiente casi continuo entre el este de Asia y Europa. Sabemos que en los últimos milenios hubo muchas migraciones entre los dos continentes, en ambos sentidos, pero es bastante verosímil que las hubiera habido también antes, en la época de la primera colonización del mundo por el hombre moderno.

Una reconstrucción de la historia genética y lingüística del mundo tiene que ser necesariamente incompleta, porque hoy por hoy quedan numerosas lagunas y zonas dudosas. De todos modos lo podemos intentar, a sabiendas de que es muy hipotética, con algunos puntos claros y otros bastante inseguros, mero ejercicio de la imaginación.

1. Desde el noreste de África parte una expansión en una época sin precisar, quizás hace 70 000-75 000 años. Sigue la costa meridional de Asia. Quedan pocas huellas de descendientes de estas poblaciones en la India y el sureste asiático: predravídicas en la India, negritos en las islas Andamán, en Malaysia, y en Filipinas.

2. Del sureste de Asia parten dos ramas: hacia el norte, Vietnam y China; hacia el sur, Nueva Guinea y Australia, siempre por la costa.

3. Fechas de llegada: en Australia 60 000-55 000 años; en China (Liujiang, Guangxi) 67 000. Origen de australianos, papúas (Nueva Guinea), mongoloides meridionales.

4. Continuación de la navegación a lo largo de la costa oriental de Asia hacia el norte; el movimiento de poblaciones desde la costa hacia el interior origina las poblaciones del noreste asiático (chinos del norte, coreanos, japoneses, mongoles, buriatos, koriacos, yakutos, chukchi, etc.).

5. Primer paso por Beringia, hace entre 50 000 y 30 000 años (¿por tierra firme? Quizá costeando, si la tierra de Beringia sólo permaneció emergida hace 25 000-10 000 años).

6. Entre 50 000 y 30 000 años atrás, comienzo del poblamiento de Asia central y Asia del norte, a partir del este de Asia.

7. Entre 45 000 y 40 000 años atrás, comienzo del poblamiento de Oriente Próximo a partir del sur de Asia y del norte y este de África.

8. Hace unos 40 000 años, comienzo del poblamiento de Europa desde el sureste (Oriente Próximo) y el este (Asia central), y el de América desde el noreste asiático.

En África los khoisan dan origen a los africanos del noreste, y los pigmeos en África central a los que hablarán las lenguas nígerkordofanas y nilosaharianas al norte del ecuador.

La familia lingüística más antigua es la que hoy se denomina khoisan. Quienes hablan hoy estas lenguas probablemente descienden del primer grupo de hombres modernos. Las familias australiana, indopacífica (Nueva Guinea) y austrica (en el sureste de Asia) se forman durante la primera migración hacia el este (fase 3).

En Asia oriental se origina hace 45 000-50 000 años la antigua familia chinodenecaucásica, de la que proceden la familia chinotibetana y la na-dené. De la expansión hacia el oeste de Asia quedan las lenguas burushaski (hoy una isla lingüística del Pamir), y lenguas de Oriente Próximo ya extinguidas, como el sumerio; de la expansión en Europa queda una familia de lenguas caucásicas, la isla vasca y el etrusco (fases 6 y 8). El área eurasiática, antiguamente poblada por la familia chinodenecaucásica, es ocupada en el norte por la familia eurasiática de Greenberg, que se extiende hacia el sur-oeste y el sureste, da origen a la familia altaica al este y a la indo-europea al oeste, a la urálica al norte, a una familia caucásica al sur y a otros grupos menores. Las familias afroasiática y dravídica se originan en el este y noreste, respectivamente, de África, hace 20 000-15 000 años, y las dos se expanden hacia el este, primero las dravídicas y luego las afroasiáticas. Las lenguas dravídicas pasan de Irán a la India con la agricultura después de hace 10 000 años, mientras que las lenguas afroasiáticas se encuentran en el norte de África y Oriente Próximo en el mismo período. El norte del área expuesta a la difusión de la agricultura desde Oriente Próximo es ocupado en una expansión en dos fases, la primera partiendo de Turquía y la segunda de la región kurgán, de poblaciones que hablan lenguas indoeuropeas, las dos hacia Europa. También en la región kurgán, una expansión hacia el sur pasa al este del mar Caspio y, a través de Irán y Pakistán, llega a la India, suplantando a casi todas las lenguas dravídicas. Quedan algunas, aisladas, en el norte del continente indio, y algunas más en el sureste. Una expansión indo-europea hacia el este lleva otras lenguas indoeuropeas (tocario) hasta el extremo occidental de China y el norte de la India. La última gran expansión es la de las lenguas altaicas, que empieza hace 2300 años y prosigue casi hasta nuestros días, suplantando a las lenguas indoeuropeas que se hablan en Asia central y Turquía.

¿Por qué cabe esperar un parecido básico entre la evolución biológica y la lingüística?

Hay importantes analogías entre la evolución de los genes y la de las lenguas. En ambos casos, un cambio en un individuo puede extenderse a toda la población, a partir de la persona en la que ha aparecido por primera vez. En el caso de los genes, al cambio lo llamamos mutación. Pasa de un individuo a otro de la siguiente generación, por lo que a veces se necesita mucho tiempo, el paso de muchísimas generaciones, para que se encuentre en todos los componentes de una población. El genoma, patrimonio hereditario, está muy bien escondido y protegido de las influencias exteriores. Los cambios del genoma son muy poco frecuentes; la transmisión de unos individuos a otros sólo tiene lugar de padres a hijos. Los cambios del lenguaje son mucho más frecuentes que las mutaciones biológicas, y pueden pasar de unos individuos a otros sin que haya ningún parentesco entre ellos, y por eso también entre personas de edad parecida. No es necesaria, pues, la distancia de una generación entre el que enseña y el que aprende una lengua, mientras que el paso de los genes requiere por fuerza una generación. Es fácil entender que las lenguas pueden cambiar mucho más deprisa que los genomas. En efecto, si una palabra puede durar miles de años, un gen puede permanecer sin cambios durante millones y a veces miles de millones de años. Pese a estas diferencias, las similitudes entre las dos evoluciones siguen siendo importantes.

Pero hay que dejar claro que no existe ningún motivo para pensar que los genes influyan en la posibilidad de hablar una u otra lengua. El hombre moderno posee, desde su nacimiento, la capacidad de aprender cualquier lengua conocida, y la lengua materna es el resultado de una casualidad individual: el lugar y el grupo social de nacimiento. La estructura de todas las lenguas modernas tiene una complejidad comparable, y las lenguas de los grupos étnicos que viven en un nivel económico primitivo no son, ni mucho menos, más «primitivas» que las nuestras. Si hay un efecto de interacción entre genes y lenguas, son más bien éstas las que pueden influir en los genes, en el sentido de que una diferencia de lengua entre dos poblaciones puede disminuir sus intercambios genéticos, aunque sin anularlos.

La evolución lingüística es un caso particular de evolución cultural, un tema al que dedicaré el siguiente y último capítulo. Ahora nos interesa entender cómo es que existe un paralelismo entre dos evoluciones tan distintas. La explicación es muy sencilla. Dos poblaciones aisladas entre sí se distinguen desde el punto de vista tanto genético como lingüístico. El aislamiento, debido a las barreras geográficas, ecológicas y sociales, impide (o hace menos probables) los matrimonios entre las dos poblaciones, y por lo tanto también el intercambio genético. Entonces, las poblaciones evolucionarán independientemente y se volverán distintas. La diferenciación genética aumentará regularmente con el paso del tiempo. Podemos esperar exactamente lo mismo desde el punto de vista lingüístico: el aislamiento reduce o anula los intercambios culturales, y las dos lenguas también se diferencian. Aunque los cálculos del tiempo de separación entre dos lenguas, mediante la glotocronología, a veces dejan bastante que desear en cuanto a su precisión, en general se observa un aumento de la diferencia lingüística o genética a medida que se prolonga el aislamiento. Por lo tanto, tiene que haber una correspondencia básica entre el árbol lingüístico y el árbol genético, pues reflejan la misma historia de separaciones y aislamientos evolutivos.

De todos modos, hay causas importantes de perturbación. Con acontecimientos históricos especiales, un lenguaje puede ser reemplazado por otro. En Europa hay ejemplos muy claros. La lengua húngara se encuentra geográficamente en el centro de un grupo de lenguas indoeuropeas de distintas ramas: eslava, germánica, itálica, pero pertenece a la familia urálica, rama ugrofinesa. Las otras lenguas de la misma familia se hablan en el noreste de Europa y el oeste de Siberia, como he señalado a propósito de los lapones. Los magiares (un grupo de nómadas) partieron de sus asentamientos en Rusia a finales del siglo IX d.C., y después de atravesar los Cárpatos sometieron Hungría, que ya había sido ocupada por otros bárbaros, los ávaros. Con la conquista se creó la monarquía magiar, que impuso la lengua de los vencedores a la población de lengua neolatina que vivía en la región. El número de los conquistadores era inferior al de los vencidos, tal vez en la proporción de 20 por 100 y 80 por 100. Por consiguiente el efecto genético de la conquista fue moderado, y quedó diluido después de los intercambios con los vecinos. Actualmente poco más de un 10 por 100 de genes de los húngaros se puede atribuir a los conquistadores de origen urálico.

En otros lugares, las conquistas de los bárbaros tras la caída del Imperio romano tuvieron más dificultades para reemplazar o incluso alterar profundamente la lengua de los conquistados, que siempre eran superiores en dimensiones demográficas y grado de civilización, aunque su organización militar fuera incapaz de resistir al empuje de los bárbaros. Por ejemplo, los lombardos, que probablemente procedían de Suecia, ocuparon gran parte de Italia antes de la invasión de Hungría que acabamos de citar, y fundaron un reino que duró hasta el siglo X, pero no tuvieron una influencia importante en la lengua. Lo mismo sucedió con los francos, población de origen alemán que tuvo gran importancia en la historia de Francia, sin afectar a su lengua. Pero en Gran Bretaña, después de la caída del Imperio romano, los anglosajones mercenarios de los romanos lograron imponer su poder en el siglo VI, y con él su lengua. Al parecer, llamaron a sus familias que vivían en el continente. En poco tiempo se produjeron muchos cambios en la lengua de las islas británicas. Los indígenas hablaban lenguas hoy desconocidas; en el último milenio a.C. la lengua celta se difundió por casi toda Europa, a partir de una zona situada probablemente entre Austria y Suiza. En la época de la conquista romana, en las islas británicas se hablaban dialectos celtas. Con la conquista fueron sustituidos por la lengua latina, salvo en Irlanda, Gales y Escocia, que no fueron conquistadas por los romanos. En estas regiones todavía se hablan, o se han hablado hasta hace poco, las lenguas celtas. En otros lugares estas lenguas han desaparecido, excepto en Bretaña, adonde las llevaron los campesinos que se marcharon de Inglaterra presionados por los conquistadores anglosajones. La conquista normanda a raíz de la batalla de Hastings en 1066 no sustituyó la lengua anglosajona, pero importó en el inglés moderno un número importante de palabras francesas.

Otra sustitución importante tuvo lugar en Turquía, donde los turcos empezaron a atacar al imperio bizantino a finales del siglo XI, y completaron su conquista con la toma de Constantinopla en 1453. La sustitución de la lengua griega, que se hablaba en Bizancio, por la lengua turca, tiene un interés especial, pues la segunda es de una familia diferente, la altaica. En Turquía el efecto genético también fue moderado. En aquellos tiempos los ejércitos estaban formados por un número bastante reducido de combatientes, y aunque a veces se desplazaban con sus familias, la densidad demográfica siempre era pequeña comparada con la de los países invadidos, cuando éstos tenían una larga historia de civilización y desarrollo económico. Pero bajo la protección del Imperio romano los pueblos invadidos habían perdido su capacidad de resistencia a invasores tan peligrosos como los bárbaros.

Ya hemos mencionado varias veces otra lengua que no es indo-europea, hablada en Europa hasta nuestros días por una minoría de franceses del suroeste y una parte más numerosa de la población del norte de España: la lengua vasca. En este caso nos hallamos ante el fenómeno contrario: no se produjo sustitución de la lengua local, el vasco, por una lengua indoeuropea llegada más tarde, a diferencia de lo que ocurrió en otras partes.

Los ejemplos de sustitución de las lenguas no se limitan a Europa. Pero como la historia de Europa es bastante larga, los últimos cambios se produjeron en el período histórico, mientras que en otras partes se trata de sucesos casi siempre prehistóricos. Las invasiones arias en Irán, Pakistán y la India llevaron las lenguas indoeuropeas a regiones donde se hablaban lenguas de la familia dravídica. Desde el sureste de Asia, los grandes descubrimientos geográficos de los malayopolinesios llevaron las lenguas austronesias a Nueva Guinea, Melanesia, Micronesia y Polinesia. Desde la costa occidental, estas lenguas llegaron a Madagascar, donde aún se hablan. Las migraciones polinesias tuvieron un efecto genético menor donde ya había densidades elevadas de melanesios, es decir, en Melanesia. Allí hubo más de 3000 años de mezclas, y el mosaico genético-lingüístico es muy complicado. Pero cuando, a partir de 3000 años atrás, los austronesios se desplazaron de Polinesia central hacia Polinesia oriental, aún serían de aspecto mongoloide, pues no habían tenido mucho tiempo para mezclarse con los melanesios.

Los aficionados a las historias de exploraciones extraordinarias se alegrarán de saber que con los datos genéticos en la mano no se puede descartar que Suramérica hiciera una contribución parcial a Polinesia oriental, como ha sugerido Thor Heyerdahl con los viajes del Kon-Tiki. La diferencia genética entre mongoloides y amerindios es bastante pequeña, por lo que todavía es muy difícil contestar con precisión a la pregunta de si hubo una contribución genética de los suramericanos a Polinesia. Los nuevos marcadores genéticos que están a punto de ser introducidos podrán dar respuestas mucho más claras a todas estas cuestiones.

La sustitución total de una lengua se ve facilitada por una fuerte presión política organizada. Estas circunstancias son bastante extraordinarias, por lo que a menudo las interacciones entre los pueblos no comportan cambios de lengua. Lenguas distintas habladas en países vecinos pueden permanecer invariables durante milenios, aunque mientras tanto los genes experimenten una sustitución parcial, que a veces continúa hasta ser casi total. Es difícil decir en qué punto se encuentra la sustitución del genoma original por el de los vecinos debida al flujo génico, pero sin duda tiene que ser importante. En otros casos la sustitución génica es casi completa, no así la lingüística. Dos poblaciones que hablan lenguas khoisánidas en Tanzania (hadza y sandawe) ya no tienen genes de los khoisan, pero son bastante pequeñas y vivieron rodeadas de bantúes durante miles de años, un período suficiente, con un intercambio genético modesto, para que se lleguen a reemplazar más del 90 por 100 de los genes originales. Los hadza y los sandawe son, o eran, cazadores-recolectores, y por lo tanto su separación socioeconómica de los agricultores bantúes era suficiente para que pudieran conservar su lengua, pero insuficiente para suprimir del todo el intercambio genético con sus vecinos.

Resumiendo, la sustitución de las lenguas no es la única causa de perturbación del paralelismo entre evolución genética y lingüística que se observa actualmente. Los genes también pueden ser reemplazados. Los vecinos geográficos siempre están dispuestos a los intercambios genéticos, con la limitación de que, en general, estos intercambios son comunes sólo entre vecinos muy cercanos, es decir, sobre todo allí donde las periferias de grupos sociales o políticos distintos se tocan o se mezclan. Puede que lo extraordinario sea que, pese a la probabilidad de sustitución lingüística y genética, todavía podamos encontrar, en el mosaico lingüístico y genético del mundo moderno, la suficiente coherencia como para poder reconstruir un árbol común a las dos evoluciones.

Las grandes expansiones humanas y las familias lingüísticas

Hemos visto que la mayoría de las familias lingüísticas, a juzgar por el árbol genético, existen desde hace 6000-25 000 años. Puede que alguna familia sea más antigua: la de las lenguas australianas y las lenguas indopacíficas (Nueva Guinea) se pueden hacer remontar a más de 40 000 años, de acuerdo con la primera entrada del hombre moderno en estas partes del mundo. En este caso la definición de familia cuenta con la ayuda del aislamiento geográfico de dos grandes islas, Australia y Nueva Guinea. Las dos familias respectivas son distintas, y los aborígenes también son genéticamente distintos entre sí. Las lenguas khoisánidas tienen que ser antiguas, pero es más difícil atribuirles una edad. La familia eurasiática o sinodenecaucásica, postulada considerando los parecidos entre el vasco, las lenguas caucásicas, las sinotibetanas, las na-dené, las burushaski y otras aisladas o extintas, podía encontrarse en su momento de máxima expansión cuando el hombre moderno ocupó Europa, hace 40 000 años.

La familia mejor conocida es la indoeuropea. También se ha intentado buscar su lugar de origen, con resultados increíblemente distintos. Según los autores, este lugar varía de Alemania al noreste caucásico, de los estados bálticos a Suez. Es un área casi tan amplia como la que cubre actualmente la familia, e incluso en algunos casos la sobrepasa. Quizá la teoría que tuvo más crédito hasta hace poco fue la de Gimbutas, quien sitúa el origen al norte del mar Negro y asocia los primeros pueblos de lengua indoeuropea con la civilización de los kurganes, de las estepas de Asia. Pero cuando Gimbutas publicó su hipótesis, las fechas de los kurganes no se conocían bien: ella hablaba de 3000-3500 años antes de Cristo, una fecha que les pareció imposible (demasiado alta) a los arqueólogos ingleses. Recientemente estas fechas han sido confirmadas por nuevas excavaciones, que también han demostrado que en esta región probablemente se montaba a caballo y se construían carros de guerra.

El arqueólogo Colin Renfrew propuso en 1987 otra hipótesis, que también es muy interesante. Según él, las lenguas indoeuropeas se difundieron con los agricultores neolíticos a partir de Oriente Próximo. Ya he tenido ocasión de mencionar su libro, puesto que fue la primera corroboración y aceptación de nuestra hipótesis de que la difusión de la agricultura fue un fenómeno démico y no cultural.

La cuestión que aquí nos ocupa es la propuesta de Renfrew de que las lenguas indoeuropeas se originaron en Turquía, desde donde irradiaron hacia Europa con los campesinos neolíticos. Es evidente que todos los emigrantes son portadores de su lengua, y si encuentran pocos habitantes —o ninguno— en las nuevas tierras que ocupan, no tienen motivos para cambiar de lengua, ni posibilidad de hacerlo. Conviene recordar que los habitantes de Europa, antes de la llegada de los neolíticos (los mesolíticos), tenían densidades de población bajas en casi todas las regiones, y como vivían de la caza y la recolección, optaban sobre todo por los medios forestales, que no suelen coincidir con los adecuados para la agricultura —para la cual lo primero que había que hacer, donde había bosque, era talarlo.

La idea de Renfrew también da una fecha para la irradiación de las lenguas indoeuropeas: 7000-7500 a.C., época de la partida de los agricultores. Esta fecha es una de las causas de la resistencia que ha encontrado su hipótesis. Los cálculos glotocronológicos, aunque son muy aproximados, dan una edad de 6000 años, que concuerda más con el origen kurgán sugerido por Gimbutas. Yo estoy convencido de que ambas ideas, la de Renfrew y la de Gimbutas, son acertadas. No hay contradicción entre ellas; al contrario, se refuerzan mutuamente. La fecha del origen del indoeuropeo obtenida por vía glotocronológica es inaceptable, porque la razón exponencial en la que se basa se separa en tiempos más lejanos y tiende a dar resultados que se quedan cortos. Otras objeciones de orden ecológico (nombres de árboles de la región de origen), que parecen más favorables al origen kurgán, probablemente sólo son válidas para éste, que, por otro lado, explica probablemente la mayor parte de las lenguas europeas.

Está claro que, genéticamente, los pueblos de la estepa descienden con mucha probabilidad de los neolíticos de Oriente Próximo que inmigraron a la región de las estepas, dirigiéndose hacia el norte y pasando por el oeste o el este del mar Negro. Después de su llegada domaron el caballo (que no se encontraba en otros lugares, o por lo menos no era tan abundante), lo que les permitió sobrevivir y prosperar en un medio poco adecuado para la agricultura. La adaptación llevó su tiempo, pero con el desarrollo de las armas de bronce (que empezó en este período), hacia 5000 o 5500 a.C. ya estaban preparados para una expansión, pues tenían comida, medios de transporte y armas nuevas y muy poderosas. La región fue el punto de partida de numerosas expansiones durante 3000 o 4000 años. Estas expansiones se dirigieron al sureste, a través de Asia central, hasta Persia, Pakistán y la India; al oeste, hasta Europa central y septentrional.

La difusión de las lenguas indoeuropeas habría incluido, pues, dos expansiones sucesivas, con distinto origen y dirección, pero siempre de gente afín con lenguas afines. Las lenguas de los kurganes tenían por lo menos 3000 años más que las originarias de Oriente Próximo, y por lo tanto se diferenciaron de ellas. Las lenguas indoeuropeas, llegadas de las estepas asiáticas con la cultura aria, sustituyeron casi por completo a las dravídicas en Irán, Pakistán y la India septentrional, pero en la periferia de la expansión aria no llegaron a imponerse del todo y todavía hoy se hablan lenguas dravídicas, sobre todo en el sur de la península india. La historia lingüística de Eurasia en los últimos 10 000 años está resumida en la figura 14. Podemos comprobar que los genes siguen el mismo esquema general que las lenguas. Todos, o casi todos, los pueblos de la India son caucasoides, aunque tienen la piel más oscura que los caucasoides del norte, pero las poblaciones del sur que hablan lenguas dravídicas tienen una composición génica un poco distinta. Así pues, en esta parte del mundo se da una superposición de al menos tres estratos étnicos: uno más antiguo, muy limitado pero insuficientemente estudiado, presenta un tipo físico que recuerda vagamente a los aborígenes australianos (los australoides); los dravídicos, que viven sobre todo en el sur de la India, donde se mezclaron menos con los invasores arios; y por último, los arios, que tienen la piel más clara. En la parte central y oriental de la India también hay infiltraciones desde el sureste de Asia.

00021

00003

00008

14. Distribución geográfica de seis familias lingüísticas en tres épocas distintas. Los dos primeros mapas (correspondientes a 10 000 y 5000 años atrás) son muy hipotéticos. El último mapa es el de la distribución moderna, según la clasificación y los mapas de Ruhten. La familia que se extendía por casi toda Eurasia y hoy ha quedado reducida a la región vasca, el sur del Cáucaso, China y el Tíbet es la chinodenecaucásica propuesta por Starostin. Las otras cinco son las familias que forman parte de la superfamilia nostrática, según los lingüistas rusos. En cuanto a los focos de difusión, el de la familia indoeuropea se ha colocado de acuerdo con la hipótesis de Renfrew (1987) de que la lengua fue llevada a Europa y Asia por campesinos neolíticos. La familia dravídica se ha situado en Irán tras el descubrimiento de que la lengua elamita, hablada hace 5000 años en el suroeste de Irán, pertenece a la familia dravídica y también fue difundida por los campesinos. La familia afroasiática, según Greenberg, se encontraba ya desde época más antigua en África, y puede que los campesinos fueran portadores de la rama semita de esta familia. En un período anterior las cinco familias pudieron ser geográficamente adyacentes.

La asociación de las dos ideas, la de Gimbutas y la de Renfrew, me parece mucho más verosímil que la de un origen de todas las lenguas indoeuropeas modernas de una sola vez desde Turquía, como en la primera hipótesis de Renfrew. Un nuevo estudio aporta algunas confirmaciones. Las lenguas indoeuropeas han sido analizadas con mucho detalle a partir del siglo pasado, después del nacimiento «oficial» de la familia, que se puede situar en 1786. Ese año el juez inglés sir William Jones expuso, en una famosa conferencia pronunciada en la Bengal Asiatic Society de Calcuta (fundada y presidida por él), la teoría de que la lengua sánscrita, la griega, la latina y quizá también el gótico y el celta, tenían semejanzas entre sí que obligaban a pensar en un origen común. Antes que él, ya otros habían advertido semejanzas entre el sánscrito y las lenguas europeas: por ejemplo, el mercader florentino Filippo Sassetti, en el siglo XVI, o el jesuita P. Coeurdoux, que a finales del siglo XVIII envió desde Pondicherry a la Académie des Inscriptions de París unas notas que demostraban que sánscrito, griego y latín debían tener un origen común. Pero estas observaciones no tuvieron la resonancia de la conferencia de Jones, quien contó con la ventaja de un público mucho más amplio y receptivo. En 1863 el lingüista alemán August Schleicher publicó un árbol de las lenguas indoeuropeas bastante parecido al que se puede dibujar hoy utilizando los métodos modernos. Pero entonces no existían métodos cuantitativos, que se desarrollaron mucho más tarde, en la segunda mitad de nuestro siglo, para las aplicaciones biológicas. De todos modos la relación entre biología y lingüística fue estrecha desde el principio. Sin duda, el uso teórico que hizo Charles Darwin de los árboles para explicar la teoría del origen de los organismos influyó en Schleicher. En el capítulo XIV de El origen de las especies, publicado en 1859, Darwin dice claramente que, si se conociera el árbol biológico de los grupos humanos, se podría extraer de él el de las lenguas. Esta prueba no se hizo hasta 1988, por primera vez, e independientemente de la profecía de Darwin.

El primer análisis cuantitativo moderno y completo del parecido entre las lenguas indoeuropeas lo realizaron en 1992 el estadístico Kruskal y los lingüistas Dyen y Black. Midieron la frecuencia de las palabras de origen común en todas las parejas posibles entre unas seis docenas de lenguas indoeuropeas, utilizando la lista glotocronológica estándar de 200 palabras. Aplicando dos métodos modernos de reconstrucción del árbol desarrollados en genética, hemos obtenido árboles (cuyo carácter reproducible está demostrado mediante análisis estadístico con el método del hootstrap) que coinciden bastante con el de Schleicher. La principal diferencia es la posición de la raíz. Los grupos más importantes de lenguas indoeuropeas son la subfamilia germánica (que también incluye la lengua inglesa y las escandinavas), la itálica (derivada del latín), la baltoeslava, la celta, la india y la irania. Las dos últimas, según la mayoría de los lingüistas, forman una sola rama, mientras que según Kruskal están separadas. Muchas lenguas tienen un origen aislado y separado de estas subfamilias, como el albanés y el griego. En este análisis no se incluyen lenguas extintas (como el hitita y el tocario). Se ha obtenido el mismo árbol con los dos métodos de reconstrucción (UPGMA y NJ), y se resume en la figura 15. Una posibilidad es que las lenguas aisladas, como el albanés y (con menor evidencia) el griego, se originaran en la primera ola, a partir de Turquía, y que su posición en el árbol se deba a la antigüedad con respecto a las otras ramas. También son las lenguas más cercanas, geográficamente, a Turquía. Nuestro análisis pone juntas la rama india y la irania, formando así una rama indoirania, de acuerdo con la tradición clásica de los estudios indoeuropeos, al contrario de las conclusiones de Kruskal, obtenidas con un método estadístico que no utiliza los árboles. Pero la parte común a las dos ramas de nuestro árbol es corta, y su longitud no es significativamente distinta de cero, lo que lleva a la conclusión de que las lenguas india e irania tienen un origen común. Las otras ramas quizá deriven de la segunda ola de migraciones indoeuropeas, que partió del área de los kurganes del oeste, mientras que la rama indoirania procedería de un área kurgán hacia el este.

Otras muchas expansiones llevaron lenguas nuevas a tierras nuevas. Las expansiones démicas que conocemos casi siempre estuvieron acompañadas de la lengua original. Entre las expansiones prehistóricas estudiadas tanto genéticamente como desde el punto de vista lingüístico, tiene especial interés la de las poblaciones que hablan lenguas bantúes. Pese a los contactos e intercambios con pueblos de distinta lengua, como los nilosaharianos del este de África y los khoisan del sur de África, los bantúes han conservado su individualidad genética que les distingue de los demás africanos del oeste, de los que descienden. Partiendo de Nigeria y Camerún, se dirigieron al sur sin separarse mucho del litoral atlántico. Esta primera expansión empezó ya en el período neolítico (para África), hace más de 3000 años. Sólo más tarde la expansión bantú pudo prevalerse de la fusión del hierro, que ha dejado rastros arqueológicos muy claros en Nigeria, que datan aproximadamente del 500 a.C. Hasta el año cero de nuestra era los bantúes no llegaron a la región de los grandes lagos (Uganda y Kenia), y la arqueología ha descubierto un gran desarrollo del uso del hierro en esa época.

La expansión bantú hacia el sur empezó a lo largo de la costa occidental, pero luego también siguió por la oriental. Más adelante las dos corrientes se mezclaron. Se cree que los bantúes estaban a pocos cientos de kilómetros del Cabo cuando desembarcaron allí los holandeses, hacia 1650. La velocidad de esta expansión fue algo más rápida (cerca de 1,5 km anuales) que la de la agricultura neolítica a partir de Oriente Próximo. Durante la mayor parte de su expansión, los bantúes pudieron utilizar hachas de hierro, más eficaces que las de piedra para abrirse paso por la selva. La genética revela que el sur de África fue alcanzado antes con la expansión occidental, y que la oriental se detuvo más al norte. Esto está de acuerdo con los nuevos hallazgos de la arqueología, según los cuales los bantúes llegaron muy pronto a la región de Namibia, y con los resultados más recientes de la lingüística, que hasta ahora no había indagado a fondo las lenguas de la rama occidental.

La correlación entre lenguas y genes no es perfecta porque las conquistas rápidas de las grandes regiones pueden ocasionar que unas lenguas sean reemplazadas por otras no emparentadas con ellas. Pero estos fenómenos no parecen tan frecuentes como para hacer que desaparezca la correlación. En el caso de intercambios genéticos muy prolongados con vecinos muy distintos, vemos que los genes también pueden ser reemplazados. A pesar de estas dos causas de confusión, la correlación entre genes y lenguas es positiva y estadísticamente significativa, como han demostrado Cavalli et al. (1992) y Penny et al. Es interesante señalar que también a escala microgeográfica las regiones estudiadas en detalle han mostrado correlaciones muy altas entre geografía, genética, lingüística y otros aspectos culturales, como los apellidos. Cito los trabajos de Cappello et al. (1996) en Cerdeña, de G. Zei en el sur de Italia y de Barrantes et al. (1990) en Centroamérica. A menudo el mosaico genético-lingüístico que observamos nos muestra claramente los efectos de numerosas expansiones, conocidas en la historia, y sus superposiciones e interacciones. Aunque se produjeron perturbaciones, en la mayoría de los casos no llegaron a destruir la claridad de la correlación entre poblaciones, genes y lenguas.

La evolución de las lenguas es un tema de sumo interés. Hasta ahora sólo lo hemos abordado para explicar las razones del parecido entre genes y lenguas, pero volveremos sobre el asunto en el capítulo siguiente, con un análisis de la evolución cultural, de la que la evolución lingüística es una parte muy importante.

Capítulo 5

¿Por qué cabe esperar un parecido básico entre la evolución biológica y la lingüística?

Las grandes expansiones humanas y las familias lingüísticas