Para la mayoría de la gente, teclear no es una interfaz ideal. Si pudiéramos hablar con los ordenadores, incluso el Luddite[3] más recalcitrante los usaría con más entusiasmo. Sin embargo, los ordenadores siguen siendo más o menos sordos y mudos. La razón básica de que se haya avanzado tan poco en el reconocimiento de la voz es la falta de perspectiva y no de tecnología. Cuando he asistido a demostraciones o veo anuncios de productos de reconocimiento del habla en los que alguien sostiene un micrófono ante su boca, me pregunto cómo es que han pasado por alto el hecho de que una de las grandes ventajas del habla es que nos deja las manos libres. Cuando veo a alguien hablando con la cara pegada a la pantalla me pregunto si no olvidamos que una de las razones para usar la voz con ordenadores es que nos permitiría trabajar a distancia. Cuando oigo a alguien pedir o exigir el reconocimiento independiente del usuario, me pregunto si no olvidamos que estamos hablándole a un ordenador personal y no a un ordenador compartido. Entonces, ¿por qué enfocamos el problema de manera equivocada?
La respuesta es que hasta hace poco hemos sido víctimas de dos obsesiones erróneas. La primera tenía su origen en las comunicaciones telefónicas tradicionales y consistía en que cualquiera, desde donde fuera, pudiera dar órdenes verbales a un ordenador a través del teléfono, en lugar de conversar con un operador humano; no importaba si se hablaba con un pesado acento del sur o de Bahstan, o New Yawkese. La otra obsesión procedía de la automatización de las oficinas: la máquina de escribir con la que hablamos sin descanso y que lo transcribe todo a la perfección.
Concentrarnos en solo estos dos asuntos nos ha retrasado en la consecución de objetivos más realizables y útiles, como el reconocimiento y comprensión del habla familiar en un entorno muy personalizado e interactivo.
También hemos pasado por alto el valor de la voz más allá de las palabras. Por ejemplo, hoy día los ordenadores exigen nuestra completa atención. Lo usual es estar sentado y atender, más o menos exclusivamente, al proceso y al contenido de la interacción. Casi no hay forma de usar un ordenador de forma casual o hacer que mantenga una de tantas conversaciones. Sin embargo, el habla cambiará esto.
Poder usar un ordenador más allá de la longitud del brazo también es mu y importante. Imaginemos que para hablar con alguien tuviéramos que tener siempre su nariz a un palmo de nosotros. Lo normal es hablar a la gente a distancia, apartarse de ella por un momento para hacer otra cosa e incluso conversar con alguien fuera del alcance de su vista. Yo quiero tener un ordenador que esté «al alcance del oído», lo cual requiere solucionar el problema de la separación de la voz de otros sonidos del ambiente, como el del aire acondicionado o el de un avión que sobrevolara nuestra casa.
El habla es más que las palabras también por el hecho de que posee subportadores de información paralelos. Todo el que tiene un hijo o un animal doméstico sabe que la manera en que se dicen las cosas puede ser mucho más importante que lo que se dice. El tono de voz es muy importante. Los perros, por ejemplo, responden casi por completo al tono de voz y no poseen una habilidad innata para realizar análisis lexicográficos complejos, a pesar de lo que digan sus amorosos dueños.
El lenguaje verbal lleva gran cantidad de información que va más allá de las palabras mismas. Mientras se habla, se puede comunicar con gran exactitud pasión, sarcasmo, exasperación, equivocación, servilismo y agotamiento. Sin embargo, en el reconocimiento del habla por ordenador se han ignorado todos estos matices, o peor aún, han sido tratados como obstáculos más que como posibilidades del habla. No obstante, el lenguaje hablado posee grandes cualidades que hacen que sea un medio más rico que teclear.
Quien habla una lengua extranjera más o menos bien, pero no a la perfección, sabe que escuchar y entender las noticias de la radio en ese idioma y con un zumbido de fondo es muy difícil o imposible. En cambio, para quien la habla con fluidez, el ruido como mucho le puede molestar un poco. Es evidente que el reconocimiento y la comprensión están íntimamente entrelazados.
Los ordenadores actuales no poseen el mismo tipo de comprensión que tenemos usted y yo porque sabemos que estamos de acuerdo en lo que algo significa. Sin duda, los ordenadores del futuro serán más inteligentes, pero mientras tanto tenemos que solucionar los problemas de reconocimiento de las máquinas que no poseen mucha capacidad de comprensión. Separar estas dos tareas es el camino a seguir para convertir palabras en órdenes legibles por ordenador. El problema del reconocimiento del habla tiene tres variables: riqueza de vocabulario, grado de independencia del que habla y concatenación entre palabras, es decir, la medida en que las palabras se pueden pronunciar juntas, como sucede en la cadencia del habla humana normal.
Pensemos en estas dimensiones del reconocimiento del habla como en tres ejes. En el eje del vocabulario, cuantas menos palabras hay que reconocer, más fácil resulta para el ordenador. Si el sistema sabe de antemano quién está hablando, el problema se simplifica. Y si las palabras se enuncian por separado, todavía se simplifica más.
El origen de estos ejes es el lugar en que se encuentra el vocabulario más reducido de palabras totalmente dependientes del hablante, cada una de las cuales debe ser pronunciada con pausas muy claras entre una y otra.
El problema se complica a medida que aumentamos un eje o lo movemos, como cuando añadimos más palabras al vocabulario, queremos que el sistema funcione con cualquier hablante, o permitimos que las palabras se concatenen. En el caso extremo, esperamos que el ordenador reconozca cualquier palabra, dicha por cualquiera, «en-todos-los» grados de concatenación. Se ha dado por supuesto que tenemos que estar en el extremo de todos o la mayoría de estos ejes para que el reconocimiento del había sea útil. ¡Absurdo!
Consideremos cada cuestión por separado. Cuando se trata de la extensión del vocabulario, podríamos preguntar: ¿Cuándo es lo bastante extenso? ¿Cuando tiene quinientas, cinco mil o cincuenta mil palabras? Pero en realidad la pregunta debería ser: ¿Cuántas palabras reconocibles hacen falta en la memoria del ordenador en un momento dado? Esta pregunta sugiere la fragmentación de vocabularios en subjuegos contextuales, de modo que se puedan introducir en la máquina cuando sea necesario. Cuando le pido al ordenador situar una llamada telefónica, se carga mi Rolodex. Cuando preparo un viaje, son los nombres de los lugares los que deben estar allí.
Si se concibe la extensión del vocabulario como el juego de palabras que se necesitan en un momento dado (llamémoslo «ventanas de palabras»), entonces el ordenador necesita seleccionar entre un número de palabras mucho menor y más cercano a quinientas que a cincuenta mil.
En segundo lugar, la supuesta necesidad de independencia del que habla pertenece al pasado de las compañías de teléfonos, cuando un ordenador central tenía que entender a todo el mundo y ofrecer una especie de «servicio universal». Hoy día la informática posee una capacidad de distribución y personalización mucho más amplias. Se puede trasladar más reconocimiento del habla hacia la periferia de la red, ya sea en el PC, en el inalámbrico o con ayuda de una tarjeta sofisticada. Si quisiéramos hablar con el ordenador de una compañía aérea desde una cabina telefónica, llamaríamos a nuestro ordenador personal o lo haríamos a través de nuestro ordenador de bolsillo para que éste convirtiera la voz en una señal legible por la máquina.
No obstante, concatenar y desdibujar palabras es el tercer problema. No queremos hablar al ordenador de la misma manera en que un turista se dirige a un niño extranjero, articulando cada palabra y haciendo después una pausa. Este eje es el más problemático, pero se puede simplificar, en parte, si entendemos el lenguaje como expresiones multipalabra y no sólo como palabras separadas. De hecho, este modo de manejar «palabras-que-van-juntas» puede formar parte de la personalización y entrenamiento de nuestro ordenador.
Estaremos muy cerca del reconocimiento del habla cuando consideremos el lenguaje hablado como un medio interactivo y conversacional.
El habla es un medio que a veces contiene sonidos y expresiones que no pueden encontrarse en un diccionario. No sólo es más amena que el texto en blanco y negro, sino que puede ganar significado a partir de los matices conversacionales como, «ajá», los denominados paraverbales.
En 1978 usamos en el MIT un sistema avanzado de reconocimiento del habla que, como todos los de entonces y de ahora, era propenso a cometer errores cuando la voz del que hablaba mostraba el menor nivel de estrés. Cuando los estudiantes de posgrado lo mostraban a nuestros patrocinadores, queríamos que el sistema funcionara a la perfección, pero la ansiedad siempre producía suficiente nerviosismo en la voz del estudiante que hacía la demostración para provocar el fallo del sistema.
Unos pocos años después, otro estudiante tuvo la fabulosa idea de buscar las pausas en el habla del usuario y programar a la máquina para que generara la palabra «ajá» entre dichas pausas. Así, cuando se hablara a la máquina, ésta diría periódicamente: ajáaa, aaajá o ajá. Esto produjo un efecto tan confortante (parecía que la máquina animaba al usuario a conversar), que el usuario se relajaba un poco más y la actuación del sistema iba sobre ruedas.
Este concepto revela dos cosas importantes: primero, que no todas las palabras tienen que tener significado para poder ser utilizadas en las comunicaciones; segundo, que algunas palabras son sólo protocolos de la conversación. Cuando hablamos por teléfono, si no decimos «ajá» a intervalos adecuados, nuestro interlocutor se pondrá nervioso y al final preguntará si seguimos ahí. El «ajá» no significa «sí», «no» ni «quizá», pero transmite un bit de información básica: «Estoy aquí».
Imaginemos la siguiente situación. Usted se sienta alrededor de una mesa donde todos hablan francés, pero sus conocimientos de esta lengua se limitan a un miserable curso de la escuela superior. De pronto una persona de la mesa se dirige a usted y dice: Voulez-vous encore du vin? Seguramente, usted lo entenderá perfectamente. Sin embargo, a continuación, la misma persona cambia de tema y empieza a hablar, digamos, de la política en Francia. Es muy probable que usted no entienda nada a menos que hable bien el francés (e incluso así no es seguro).
Quizás usted piense que la pregunta «¿Quiere usted un poco más de vino?» es lenguaje de niños, mientras que la política requiere técnicas de lenguaje sofisticadas.
Eso es cierto, pero ésa no es la diferencia más importante entre las dos conversaciones. Cuando la persona le preguntaba si quería más vino, probablemente alargaba su brazo hacia la botella y sus ojos señalaban su copa vacía. Es decir, las señales que usted decodificaba eran paralelas y redundantes, no sólo acústicas. Además, todos los sujetos y objetos estaban en el mismo espacio y tiempo. Sin duda, esa táctica facilitó su comprensión.
Una vez más, queda demostrado que la redundancia es efectiva. El uso de canales paralelos, como el gesto, la mirada, o el habla es la esencia de las comunicaciones humanas. Las personas, por naturaleza, tendemos a expresarnos de forma recurrente. Si usted no posee un dominio completo del italiano le será muy difícil hablar por teléfono en este idioma. Sin embargo, cuando usted llega a un hotel italiano y encuentra que no hay jabón en la habitación, no usa el teléfono, sino que baja a recepción y le dice al conserje, con su italiano de Berlitz, que no tiene jabón. Incluso es posible que haga unos cuantos gestos para indicarle que es el jabón de baño el que le falta.
En un país extranjero, uno usa todos los medios posibles para transmitir intenciones y lee todas las señales para alcanzar unos niveles mínimos de comprensión. La cuestión estriba en pensar que el ordenador está en un país extranjero, es decir, en el nuestro.
El ordenador puede producir habla de dos maneras: reproduciendo una voz grabada previamente o sintetizando los sonidos de letras, sílabas o, probablemente, fonemas. Cada sistema tiene sus ventajas e inconvenientes. La producción de habla es similar a la de la música: se puede almacenar el sonido (como en un CD) y reproducirlo, o se puede sintetizar para reproducirlo a partir de las notas (como hace un músico).
El almacenamiento del habla nos devuelve una comunicación oral y auditiva que suena muy «natural», en particular si el habla que se ha almacenado es un mensaje completo. Cuando intentamos unir fragmentos dé sonido más pequeños pregrabados o palabras sueltas, los resultados son menos satisfactorios porque falta la prosodia del conjunto.
En los viejos tiempos, muchos dudaban del uso del habla pregrabada para utilizarla en la interacción hombre-ordenador, porque empleaba mucha memoria. Hoy día eso ya no es un problema.
El problema real es otro. Para que el habla almacenada funcione, hay que grabarla previamente. Si por ejemplo, se espera que nuestro ordenador diga cosas con los nombres adecuados, hay que grabar previamente todos esos nombres. Así que la voz almacenada no funciona para el habla casual. Por esta razón se usa el segundo método.
Un sintetizador de habla toma un texto, como por ejemplo esta frase, y sigue ciertas reglas para enunciar cada palabra, una por una.
Cada lengua es diferente y su sintetización presenta distintos grados de dificultad.
El inglés es una de las más difíciles, porque escribimos de una manera extraña e ilógica (right y rite) con pronunciaciones casi idénticas para palabras diferentes (weigh y whey). Otras lenguas son mucho más fáciles de sintetizar. De hecho, el turco es un ejemplo de ello porque Atatürk cambió los caracteres arábigos de la lengua a los latinos en 1929 y así creó una correspondencia entre sonidos y letras. En turco se pronuncia cada letra: no hay letras silenciosas ni diptongos confusos. Por lo tanto, a nivel verbal, el turco es para un sintetizador de habla por ordenador un sueño hecho realidad.
Incluso aunque la máquina pueda enunciar todas y cada una de las palabras, el problema no acaba aquí. Es muy difícil dar a una colección de sonidos sintetizados un ritmo y un énfasis de conjunto para toda la frase u oración, lo cual es importante no sólo para que suene bien sino también para añadir vida, expresión y tono de acuerdo con el contenido y la intención del mensaje. De otro modo, el resultado es una voz monótona que suena como la de un borracho hablando sueco.
Ahora se empiezan a ver, más bien oír, algunos sistemas que combinan síntesis y grabación. Como con la mayoría de las cosas digitales, la solución a largo plazo será usar ambos sistemas.
En el próximo milenio, hablaremos tanto o más con máquinas que con seres humanos. Lo que al parecer produce más reparo es hablar con objetos inanimados. Nos sentimos muy cómodos cuando hablamos con nuestros perros o canarios, pero no con pomos de puerta o farolas, a menos que estemos muy borrachos. Nos sentiríamos ridículos si le hablásemos a la tostadora, como cuando le hablábamos al contestador automático en las primeras épocas.
La miniaturización hará que esta omnipresencia del habla avance más deprisa que en el pasado. Los ordenadores son cada vez más pequeños, y es muy probable que mañana llevemos en la muñeca lo que hoy tenemos en el escritorio y ayer ocupaba toda una habitación.
Muchos usuarios de ordenadores de escritorio no aprecian del todo la enorme reducción de tamaño que ha tenido lugar durante los últimos diez años, porque hay ciertas dimensiones, como el tamaño del teclado, que se han intentado mantener constantes y otras, como las dimensiones de la pantalla, que se intentan aumentar, no disminuir. Por lo tanto, el volumen total de una máquina de escritorio no es inferior al de un Apple II de hace quince años.
Si hace mucho tiempo que no ha usado un módem, la reducción de tamaño es mucho más indicativa del cambio real que ha tenido lugar. Hace menos de quince años, un módem de 1200 baudios, que costaba unos 1000 dólares, era casi del tamaño de una tostadora apoyada de lado. Un módem de 9600 baudios de aquella época era como una caja montada en una estantería. Hoy día, un módem de 19 200 baudios consiste en una pulcra y simple tarjeta. Incluso en este formato de tarjeta de crédito, una gran parte del espacio real no se usa y sólo está ahí por razones de forma: para que encaje en la ranura y tenga el tamaño suficiente para poder cogerlo sin que se pierda. La razón principal de que una cosa como el módem no se ponga en la «cabeza de un alfiler» ya no es tecnológica, sino que nos costaría encontrar las cabezas de alfiler y sería fácil perderlas.
Una vez superada la limitación natural de la distribución de los dedos, que hace que un teclado sea cómodo, el tamaño de un ordenador lo determinan las dimensiones de bolsillos, carteras, relojes de pulsera, bolígrafos y objetos similares. En estos factores de forma, en que una tarjeta de crédito se acerca al menor tamaño deseable, una pantalla es minúscula y la interfaz gráfica de usuario ya no tiene sentido.
Es probable que los sistemas basados en lápices se conviertan en un término medio incómodo; son demasiado grandes y a la vez demasiado pequeños. La alternativa de fabricar botones físicos también es una solución inaceptable. Si nos fijamos en los mandos a distancia de la televisión o del grabador de vídeo tendremos un buen ejemplo de los límites de los botones; casi todos parecen hechos para manos de pigmeo y ojos muy jóvenes.
Por todas estas razones, la tendencia creciente a la miniaturización se dirigirá hacia la mejora del reconocimiento y producción del habla como interfaz dominante en el diálogo hombre-ordenador en objetos pequeños.
No hace falta que el reconocimiento verbal en sí mismo resida en gemelos y pulseras. Los aparatos pequeños se pueden telecomunicar para ayudarse. La cuestión reside en que ser pequeño exige disponer de voz.
Hace muchos años, el jefe de investigaciones de tarjetas en Hallmark me explicaba que el principal competidor de esta compañía era AT&T. La transmisión de emoción a través de la voz consiste en «llegar a alguien y conmoverlo». El canal del habla lleva no sólo la señal sino todas las características que la acompañan y que hacen que se muestre comprensiva, reflexiva, compasiva o misericordiosa. Decimos que alguien «suena» honesto, que una excusa «suena» sospechosa o que algo no nos «suena» bien. En el sonido existe información que nos habla de los sentimientos.
De la misma manera que alargamos la mano para tocar a alguien, llegaremos a usar la voz para proyectar nuestros deseos a las máquinas. Algunas personas se portarán con sus ordenadores como sargentos instructores y otras aplicarán la voz de la razón. El habla y la función de delegar están estrechamente ligados. ¿Se imaginan dándoles órdenes a los Siete Enanitos?
Todo es posible. La idea de que dentro de veinte años estemos hablando a un grupo de asistentes holográficos de 20 centímetros de altura que caminan por la mesa no es tan increíble. Lo que no ofrece duda alguna es que la voz será el canal de comunicación primario entre el hombre y los agentes de su interfaz.