DONDE LAS PERSONAS Y LOS BITS SE ENCUENTRAN

REACCIÓN FATAL

Hace muchos años que paso un mínimo de tres horas diarias enfrente de un ordenador, y a veces todavía me resulta muy desalentador. Entender los ordenadores es tan fácil como descifrar un extracto bancario. ¿Por qué los ordenadores, y también los extractos bancarios, tienen que ser tan complicados? ¿Por qué «ser digital» es tan difícil?

En realidad no lo es, y tampoco hay ninguna necesidad de que lo sea. La evolución de la informática ha sido tan rápida que hace muy poco tiempo que disponemos de la suficiente potencia informática a bajo coste para usarla libremente facilitando así la interacción entre usuario y ordenador. Antes se consideraba frívolo e incluso antieconómico dedicar tiempo y dinero a la interfaz de usuario, porque los ciclos de ordenador eran tan valiosos que había que emplearlos en el problema, no en la persona.

Los científicos justificaron las austeras interfaces de muchas maneras. A principios de los años setenta, por ejemplo, se publicaron un montón de escritos «académicos» que defendían que el blanco y negro se ve «mejor» que el color. Éste no es malo, pero la comunidad científica pretendía justificar así su incapacidad para fabricar una buena interfaz a un coste razonable o, para ser un poco más cínico, de aportar soluciones imaginativas.

A los que trabajábamos en la interfaz hombre-ordenador, a finales de los años sesenta y durante la década de los setenta, nos consideraban moñas informáticas y nos miraban con un desprecio absoluto. Nuestro trabajo no era lo que se llevaba, pero aun así iba ganando aceptación. Para darnos cuenta de lo importantes que pueden llegar a ser las sensaciones, las impresiones, las respuestas, pensemos en la última vez que pulsamos el botón de un ascensor y la luz no funcionaba, seguramente porque la bombillita se había fundido. La frustración es enorme porque tenemos la impresión de que el ascensor no nos entiende. Del mismo modo, la función y el diseño de la interfaz son muy importantes.

En 1972 había sólo 150 000 ordenadores en el mundo, mientras que las previsiones para dentro de cinco años del fabricante de circuitos integrados Intel son expedir, ellos solos, 100 millones cada año, y en mi opinión sus cálculos están por debajo de las expectativas reales. Hace treinta años, usar un ordenador, como pilotar un módulo lunar, era el privilegio de unos pocos licenciados en el abracadabra necesario para manejar aquellas máquinas, que tenían lenguajes primitivos o carecían de lenguaje, y que estaban llenas de aparatejos, interruptores y luces parpadeantes. Creo que, de forma inconsciente, se hacía un esfuerzo para mantener el asunto en el misterio, como el monopolio que poseían los monjes sobre algunos extraños ritos en los tiempos antiguos.

Y todavía lo estamos pagando ahora.

Cuando hablamos del aspecto y del tacto de los ordenadores, nos referimos a la interfaz gráfica de usuario, lo que los «profesionales» llaman GUI. Esta mejoró mucho a partir de 1971 con los trabajos de Xerox y, poco después, con los que se llevaron a cabo en el MIT y en otros pocos lugares similares. El proceso culminó con un producto real una década más tarde, cuando Steve Jobs tuvo la suficiente sabiduría y perseverancia para presentar el Macintosh. El «Mac» fue un gran paso adelante para el mercado, y aún no ha ocurrido nada comparable. Las demás empresas tardaron más de cinco años en copiar a Apple, y en algunos casos lo han hecho con peores resultados, incluso hoy día.

La historia del esfuerzo humano para hacer que las máquinas sean más fáciles de usar se concentra casi toda en el aumento de los puntos de contacto sensorial y en el desarrollo de mejores diseños físicos. La interfaz se trató durante mucho tiempo como si fuera un problema de diseño industrial convencional, como los diseñadores de cafeteras y rastrillos que consideran el manejo de estos artículos en términos de forma, conductividad de la temperatura y prevención de ampollas.

El diseño de las cabinas de mando de los aviones es un reto desalentador, no sólo por la gran cantidad de interruptores, botones, diales e indicadores que llevan, sino también porque dos o tres entradas sensoriales de clase similar pueden interferirse unas con otras. En 1972, un L1011 de Eastern Airlines se estrelló porque su tren de aterrizaje no bajó. La voz del controlador aéreo sumada a las señales acústicas del ordenador de a bordo impidieron que la tripulación oyera el mensaje de alarma. Eso es un diseño de interfaz mortal.

Yo tenía en casa un vídeo muy inteligente, que contaba con un sistema de reconocimiento de voz muy perfeccionado e información sobre mi persona. Se le podía pedir que grabara programas con sólo mencionar su título e incluso, en algunos casos, se suponía que lo haría automáticamente, sin preguntarme. Pero de pronto, mi hijo se fue a la universidad y ya no he vuelto a grabar un programa de televisión en los últimos seis años. No es que no pueda, sino que el esfuerzo no vale la pena. Aunque no lo parezca, es demasiado complicado. Y lo peor es que el uso del vídeo y de las unidades de control remoto se entienden, en general, como una cuestión de apretar botones. Del mismo modo, la interfaz con ordenadores personales se ha tratado generalmente como un problema de diseño físico. Pero ésta no sólo tiene que ver con el aspecto y el tacto de un ordenador, sino que también está ligada con la creación de personalidad, el diseño de inteligencia y la construcción de máquinas capaces de reconocer la expresión humana.

Un perro nos reconoce por nuestros pasos a más de cien metros de distancia, mientras que un ordenador ni siquiera puede darse cuenta de nuestra presencia. Casi todos los animales domésticos reconocen cuando nos enfadamos, pero no un ordenador. E incluso hasta los cachorros saben cuándo se portan mal; los ordenadores, no.

Así que el desafío para la próxima década no sólo consiste en ofrecer pantallas más grandes, mejor calidad de sonido y dispositivos gráficos de fácil uso, sino en hacer ordenadores que nos conozcan, que aprendan lo que necesitamos y entiendan lenguajes verbales y no verbales. Un ordenador debería saber que no es lo mismo decir «votar» que «botar», no porque detecte la pequeña diferencia acústica sino porque comprenda el significado. Eso es un buen diseño de interfaz.

La interacción es una carga que ha pesado sobre el hombre hasta hoy día. Algo tan banal como imprimir un archivo de ordenador llega a ser una fatigosa experiencia más parecida al vudú que a un comportamiento humano respetable. Y como consecuencia de todo ello, muchos adultos «desconectan» y proclaman ser analfabetos informáticos sin esperanzas. Pero esto cambiará.

ODISEAS

En 1968, Arthur C. Clarke obtuvo una nominación al Oscar con Stanley Kubrick por la película 2001: Una odisea en el espacio. Curiosamente, la película se pudo ver antes que el libro. Clarke pudo revisar su manuscrito, basado en una versión más antigua del mismo relato, después de ver las pruebas. En realidad, Clarke pudo hacer un borrador de su argumento y refinar sus conceptos. Tuvo la oportunidad de ver y oír sus ideas antes de enviarlas a la imprenta.

Esto quizás explica por qué HAL, el ordenador que aparece en la película, era una visión tan brillante, y letal, de una futura interfaz hombre-ordenador. HAL, cuyo nombre no proviene de las respectivas letras precedentes de IBM, tenía un dominio completo del lenguaje en cuanto a entendimiento y enunciación, una visión excelente y humor, la prueba suprema de inteligencia.

Pasó casi un cuarto de siglo antes de que apareciera otro ejemplo de excelencia en la interfaz: El navegante del conocimiento. Este vídeo, que fue también una producción teatral, del género llamado programa piloto, era un encargo del entonces presidente ejecutivo de Apple, John Sculley, cuyo propio libro se llamaba también Odisea. El libro de Sculley terminaba con algunas ideas sobre un «navegante del conocimiento», que más tarde se convertirían en el vídeo. Pretendía ilustrar una interfaz del futuro, más allá del ratón y el menú. Fue un trabajo excelente.

El navegante del conocimiento describe un dispositivo plano con aspecto de libro abierto sobre la mesa de un profesor de los que usan chaqueta de mezclilla. En una esquina del visor hay un personaje con pajarita que representa a la persona de la máquina. El profesor pide a este agente que le ayude a preparar una conferencia, delega en él una serie de tareas y en un par de ocasiones se da por enterado de otros asuntos pendientes. El agente ve, oye y responde con inteligencia, como cualquier ayudante humano.

HAL y el navegante del conocimiento tienen en común que ambos dan muestras de inteligencia hasta un punto en el que la interfaz física en sí misma casi ha desaparecido. En eso consiste el secreto del diseño de la interfaz, en hacer que desaparezca. Cuando conocemos a alguien, podemos ser muy conscientes de su aspecto, voz y maneras. Pero enseguida domina el contenido de nuestra comunicación, aunque éste se expresa en buena parte por el tono de voz o las expresiones faciales. Una buena interfaz de ordenador debería comportarse de igual modo. El problema no es tanto diseñar un tablero de mandos como diseñar un ser humano.

Por otra parte, muchos diseñadores de interfaz han intentado con tenacidad hacer que máquinas tontas fueran más fáciles de usar por gente lista. Han encontrado un filón en un campo al que llaman en Estados Unidos «factores humanos» y en Europa «ergonomía». Esta disciplina trata sobre cómo el cuerpo humano utiliza sus sensores y accionadores para trabajar con las herramientas de su entorno inmediato.

Un teléfono es tal vez el aparato más diseñado y rediseñado del mundo, y todavía sigue siendo poco satisfactorio. Los teléfonos móviles hacen palidecer a los reproductores de vídeo por lo poco manejable de su interfaz. Un teléfono Bang & Olufsen es escultura, no telefonía, y resulta más difícil de usar que un antiguo teléfono negro de disco giratorio.

Peor aún, a los diseños de teléfono se les ha añadido una infinidad de funciones: archivo de números, dispositivo de rellamada, funcionamiento con tarjeta de crédito, llamadas en línea, filtro de llamadas, contestador automático, visualización del número en pantalla y otras más que se han introducido en un aparato que cabe en la palma de la mano y casi resulta imposible de usar.

No sólo no deseo esas prestaciones, sino que no quiero tener que marcar el teléfono para nada. ¿Por qué los diseñadores de teléfonos no entienden que ninguno de nosotros quiere marcar números de teléfono? Lo que queremos es «contactar» con las personas por teléfono.

Si tuviéramos la menor oportunidad, delegaríamos la tarea de manejar el teléfono en otra persona, lo cual me sugiere la idea de que el problema tal vez no radique en el diseño del auricular, sino que debería diseñarse un secretario robot que cupiera en el bolsillo.

MÁS ALLÁ DE LOS PRIMEROS BOCETOS

El diseño de interfaces de ordenador empezó en marzo de 1960, cuando J.C.R. Licklider publicó su escrito «La simbiosis hombre-ordenador». Lick, pues así le llamaban, era un psicólogo experimental y experto en acústica que llegó a ser un converso y un mesías de la informática y dirigió los primeros trabajos informáticos del ARPA. A mediados de los años sesenta le pidieron que escribiera un apéndice para el informe de la Commision Carnegie sobre el futuro de la televisión, y fue entonces cuando Lick acuñó el término «transmisión selectiva» (narrowcasting). Lo que Lick ignoraba en aquella época era que estas dos contribuciones, simbiosis hombre-ordenador y transmisión selectiva, estaban destinadas a converger en los años noventa.

Las primeras investigaciones sobre la interfaz hombre-ordenador, realizadas a principios de los sesenta, se dividieron en dos partes que no volverían a reunirse hasta al cabo de veinte años. Una se orientaba hacia la interactividad, y la otra se centraba en la riqueza sensorial.

La interactividad abordó la búsqueda de soluciones al problema de compartir un ordenador, que entonces era un recurso costoso y monolítico. En los años cincuenta y a principios de la década de los sesenta, un ordenador era tan valioso que se hacían grandes esfuerzos para mantenerlo funcionando todo el tiempo. A nadie se le habría ocurrido conectarle un teclado e intercambiar preguntas y respuestas con él o, por ejemplo, pedirle que nos hiciese una pregunta y que esperase pacientemente mientras nosotros la leíamos, pensábamos y respondíamos. El invento, llamado «tiempo compartido», era un método con el cual múltiples usuarios podían compartir una sola máquina, aunque estuvieran en lugares diferentes. Si, por ejemplo, se dividían los recursos entre 10 personas, por ejemplo, no es sólo que cada persona podía tener un décimo de la máquina, sino también que mientras uno estaba ocupado reflexionando, otro podía usar el ordenador al 100%.

Esta partición del pastel digital funcionaba a condición de que ningún usuario acaparase grandes cantidades de computación o ancho de banda. Los primeros terminales funcionaban a 110 baudios. Aún recuerdo como si fuera ayer cuando aumentaron su capacidad a 300 baudios; parecía que iba tan rápido…

Por el contrario, la riqueza sensorial se investigaba a partir de la interacción gráfica con mucho ancho de banda. Los primeros gráficos por ordenador necesitaban una máquina dedicada por entero a suministrar la imagen. El principio no era distinto del que utilizan ahora los ordenadores personales, pero ocupaba una habitación grande y costaba millones de dólares. Los gráficos por ordenador nacieron como un medio de dibujo lineal que exigía mucha potencia de procesamiento para controlar directamente el haz de luz del tubo de rayos catódicos.

Los gráficos por ordenador tardaron diez años en empezar a cambiar de trazos de dibujo lineal a representaciones de formas e imágenes. Las nuevas presentaciones, llamadas «pantallas punto a punto», necesitaban mucha memoria para almacenar la imagen. Hoy día son tan comunes que casi nadie sabe que al principio se las consideraba heréticas puesto que nadie creía en 1970 que la memoria de ordenador sería algún día lo bastante barata como para dedicar tanta a los gráficos.

Tiempo compartido y gráficos por ordenador fueron humildes compañeros de habitación durante las dos décadas siguientes. Estos sistemas de representación deficiente y tiempo compartido fueron una herramienta de uso común en la informática financiera y académica y dieron origen a los sistemas de banca electrónica y de reserva de plazas en los aviones que hoy consideramos tan habituales. El tiempo compartido comercial vino de la mano de un diseño de interfaz muy limitado, por lo general con salida de máquina de escribir. Se diría que se buscaba que el sistema fuera lo bastante lento para un solo usuario, de forma que otros pudieran compartirlo con él.

Los gráficos por ordenador, en cambio, se desarrollaron en su mayor parte como informática individual. Hacia 1968 los llamados «miniordenadores» empezaron a aparecer en el mercado con un precio que rondaba los 20 000 dólares. Este alto coste era debido a que la automatización de las fábricas y la maquinaria necesitaban controles muy precisos y en tiempo real. Esto ocurrió también con los gráficos por ordenador que, conjuntamente con las pantallas, los sistemas aislados para gráficos fueron los precursores de lo que hoy conocemos como estaciones de trabajo, que no son otra cosa que ordenadores personales con pantalones largos.

La redundancia se considera generalmente un mal síntoma, y sugiere una verborrea innecesaria o repeticiones negligentes. En los primeros diseños de interfaz, se estudiaban técnicas de interacción y se intentaba seleccionar cuidadosamente unos medios u otros, según las circunstancias. ¿Qué era mejor, un lápiz óptico o un tablero digitalizador? La mentalidad «uno-u-otro/a» se apoyaba en la falsa creencia de que había una solución universal «mejor» para cada situación; este enfoque es falso porque hay personas diferentes, las situaciones cambian y las circunstancias de una interacción en particular las puede determinar el canal del que disponemos. El «mejor diseño» de interfaz no existe.

Recuerdo que a mediados de los años setenta visité a un almirante que tenía uno de los más avanzados sistemas de mando-y-control. El almirante vociferaba órdenes a un joven marino, que las tecleaba, sumiso, en el lugar adecuado. O sea que, en cierto sentido, el sistema tenía una interfaz fabulosa: era capaz de reconocer el habla, y también paciente. El almirante podía moverse por la habitación, hablar y gesticular. Podía ser él mismo.

Sin embargo, el almirante no estaba preparado para planear un ataque a través de una interfaz tan indirecta. Sabía que el marino veía lo que sucedía por el ojo de la cerradura del pequeño visor del ordenador, pero el almirante prefería interactuar directamente sobre un gran mapa mural que representaba el «teatro de operaciones» en el que enganchaba barquitos azules y rojos con la correspondiente forma. En aquella época siempre bromeábamos sobre el uso que los rusos daban a los mismos colores.

El almirante se sentía cómodo con el mapa, no porque fuera anticuado o tuviera muy buena resolución, sino porque se podía entregar a él con toda su alma. Cuando movía barcos, sus gestos y acciones motoras reforzaban su memoria. Su compenetración con el mapa implicaba hasta los músculos de su cuello. En definitiva, no se trataba de una interfaz uno-u-otro/a sino de una interfaz ambas/y.

La combinación ambas/y cambió la manera de pensar y se llegó a la conclusión de que la redundancia era deseable. De hecho, la mejor interfaz debería tener muchos canales de comunicación diferentes y recurrentes, a través de los cuales un usuario podría expresar y reconocer mediante su análisis toda una serie de sensores distintos (los del usuario y los de la máquina). O también, y esto es importante, un canal de comunicación podría suministrar la información que faltaba en el otro.

Por ejemplo, si estamos en una habitación con un grupo de personas y pregunto a alguien cuál es su nombre, la pregunta no tiene sentido a menos que se sepa a dónde estoy mirando mientras hablo. En realidad, el posesivo «su» adquiere significado a partir de la dirección de mi mirada. Esto lo ilustraba a la perfección un programa llamado «Pon-Eso-Aquí», desarrollado en el MIT por Dick Bolt y Chris Schmandt. La primera versión del programa, de 1980, permitía hablar y gesticular ante una pantalla mural y mover objetos simples (luego barcos) a lo largo de una pantalla en blanco (después a lo largo de todo el Caribe). En una película de exhibición de Pon-Eso-Aquí, había una orden mal entendida y la expresión espontánea de Schmandt, «Mierda», permaneció grabada en la película para recordar a las futuras audiencias cuánto trabajo quedaba todavía por hacer.

La idea es muy sencilla: hablar, señalar y mirar deberían funcionar en conjunto como parte de una interfaz multimodal que se parece menos a enviar y recibir mensajes (la base del tiempo compartido) que a una conversación cara a cara, entre seres humanos.

Sin embargo, en aquella época, estos primeros intentos por realizar una aproximación alterna «ambas/y» al diseño de interfaz no daban la impresión de ser muy serios. De hecho, las pruebas y evaluaciones en la investigación de la interfaz no me inspiran mucho respeto. Mi argumento, arrogante quizás, es que si hace falta probar algo tan cuidadosamente para ver sus ventajas es porque, de entrada, no tiene muchas ventajas.

LA DIFERENCIA PERCEPTIBLE

Cuando yo era niño, mi madre tenía un armario en cuya parte de atrás había una «pared secreta». El secreto no era más que una colección de marcas de lápiz que hacíamos cada cierto tiempo para medir mi estatura. Todas las líneas llevaban su correspondiente fecha, y algunas aparecían juntas debido a la mayor frecuencia de las mediciones y otras espaciadas debido a que, por ejemplo, habíamos ido a pasar el verano a otro lugar; no tenía mucho sentido usar dos armarios para lo mismo.

Esta escala era una cuestión personal para mí, y me imagino que representaba de alguna forma mi asimilación de leche, espinacas y otros alimentos nutritivos.

Sin embargo, el crecimiento tiene un aspecto más dramático. Por ejemplo, un tío mío que no me había visto en, digamos, dos años, comentaba: «¡Cuánto has crecido, Nicky!». Pero yo realmente no me daba cuenta del cambio porque sólo tenía la referencia de las líneas en el armario.

La «diferencia mínima perceptible» o JND (just-noticeable difference) es una unidad de medida en psicofísica. El nombre por sí solo ha influido en el diseño de la interfaz humana. Entonces, si sólo es una diferencia mínima perceptible, ¿por qué preocuparse? Si tenemos que medir con tanto cuidado para ver alguna diferencia, quizás estemos trabajando en cosas que no tienen suficiente interés.

Por ejemplo, hay estudios académicos que sugieren que el discurso y el lenguaje natural no son en muchos casos los canales de comunicación más apropiados entre las personas y los ordenadores. Estos informes técnicos están llenos de tablas, controles de grupos y demás, que prueban que el lenguaje natural es confuso para la comunicación hombre-ordenador.

Personalmente, aunque es obvio que no espero que el piloto de un Boeing 747 ponga el avión en marcha y despegue al cantar de «Volando, volando…», no encuentro ninguna razón para no usar la riqueza del habla y los gestos, incluso en una cabina de control. Donde quiera que haya ordenadores, el diseño de interfaz más efectivo proviene de la combinación de la riqueza sensorial y la inteligencia de la máquina.

Cuando esto ocurra sí que hallaremos una diferencia perceptible. Veremos lo que veía mi tío, en lugar de las líneas del armario.

INTERFACES INTELIGENTES

Mi interfaz ideal es aquella en que los ordenadores sean más como las personas. Esta idea es susceptible de ser criticada por romántica, vaga o irrealizable. Pero yo, si acaso, la criticaría por apuntar demasiado bajo. Debe de haber muchos canales sofisticados de comunicación de los cuales ni siquiera nos hemos enterado todavía. Desde el momento en que hay hermanos gemelos que, sin saberlo, se casan con hermanas gemelas, estoy dispuesto a creer, a partir de lo que he observado, que la comunicación extrasensorial no está descartada.

A mediados de los años sesenta, me fijé el objetivo de tratar de recrear la comunicación cara a cara, con sus lenguajes gestuales, expresiones faciales y la incorporación de los miembros motrices del cuerpo. Mi modelo era el almirante.

En 1976, el objetivo de un proyecto decisivo llamado Spacial Data Management System consistía en fabricar una interfaz humana que «pusiera los ordenadores en manos de generales y presidentes de empresas pero también de niños de seis años». El sistema estaba diseñado para aprender a usarlo en treinta segundos puesto que para ver y manipular sonido, imágenes e información sofisticados se utilizó la familiaridad con escritorios y estanterías.

A finales de los setenta esto resultaba muy radical, pero no se alcanzó el objetivo primordial de plantear nuestra comunicación según el modelo del almirante y el marino. La interfaz hombre-ordenador futura se basará en la función de «delegar», no en la vulgar manipulación directa (apretar, soltar, hacer click) ni en las interfaces de ratón. La «facilidad de uso» es un objetivo tan apremiante que a veces olvidamos que hay muchas personas que no quieren usar máquinas en absoluto. Quieren las cosas hechas.

Lo que ahora llamamos «interfaces basadas en agentes» serán los medios principales a través de los cuales los ordenadores y las personas hablarán entre sí. Habrá puntos específicos del espacio y del tiempo en donde los bits se convertirán en átomos y viceversa. Ya sea por medio de la transmisión de un cristal líquido o de la resonancia de un generador de voz, la interfaz necesitará el tamaño, forma, color, tono de voz y toda la restante parafernalia sensorial.