MIRAR Y TOCAR

MIRARNOS

Los ordenadores son menos sensibles a la presencia humana que los cuartos de baño modernos o la iluminación exterior dotada con sensores de movimiento. Una cámara fotográfica barata con foco automático tiene más sensibilidad frente a lo que capta con su objetivo que cualquier terminal o sistema informático.

Al levantar las manos del teclado del ordenador, éste no sabe si la pausa es para reflexionar, para descansar o para ir a comer. No sabe distinguir si está hablando con una persona sola o acompañada de otras seis personas más, ni si estamos vestidos o desnudos. Por no saber, no sabe ni siquiera si nos hemos dado media vuelta mientras nos muestra algo importante o si hemos salido de la habitación cuando todavía está respondiéndonos.

Hoy día sólo pensamos desde la perspectiva de facilitar a una persona el uso de un ordenador. Pero quizás haya llegado el momento de preguntarse cómo podríamos nosotros facilitar a un ordenador la interacción y el trato con seres humanos. Por ejemplo, ¿cómo es posible mantener una conversación con personas cuando ni siquiera sabemos dónde están? No las vemos, ni sabemos cuántas hay.

¿Sonríen? ¿Prestan atención? Hablamos continuamente de interacciones hombre-ordenador y de sistemas de conversación y, sin embargo, nos parece natural que uno de los interlocutores permanezca en la ignorancia. Ha llegado el momento de hacer que los ordenadores vean y oigan.

La investigación y la aplicación de la visión a los ordenadores se ha centrado casi exclusivamente en el análisis del teatro de operaciones para usos militares, como vehículos autónomos o bombas sofisticadas. Las aplicaciones en el espacio exterior también son significativas y están a la cabeza de los avances en este campo. Un robot que anda alrededor de la Luna no puede limitarse a transmitir las imágenes de lo que ve a un operador humano situado en la Tierra porque la señal tarda mucho en llegar a su destino, incluso a la velocidad de la luz. Si el robot se acerca a un precipicio, el lapso que transcurre mientras el operador humano ve la imagen del precipicio y envía una orden al robot para que se detenga, será demasiado largo y el robot habrá tenido tiempo de caer al abismo. Éste es uno de los casos en los que el robot debe depender de su propio juicio basado en lo que ve.

Los científicos realizan progresos constantes en comprensión de imágenes y, por ejemplo, desarrollan técnicas para adivinar las formas a partir de las sombras o para separar los objetos principales de los fondos de la imagen. Las investigaciones para hacer que los ordenadores sean capaces de reconocer a las personas y mejorar así la interfaz hombre-ordenador se han iniciado recientemente. De hecho, nuestra cara es el dispositivo de presentación humano y el ordenador debería ser capaz de leerla, lo cual requiere el reconocimiento de caras y de sus expresiones particulares.

Habitualmente, las muecas reflejan la intención de nuestras expresiones, y no dejamos de gesticular por el hecho de estar hablando por teléfono con otra persona, aunque ésta, desde el otro lado de la línea, no pueda verlas. De hecho, a veces gesticulamos aún más para dar mayor énfasis y prosodia al lenguaje hablado. Si el ordenador fuera capaz de captar nuestras expresiones faciales, accedería a una señal redundante y recurrente que enriquecería los mensajes hablados y escritos.

El reconocimiento de caras y expresiones faciales es un reto técnico enorme; sin embargo, bajo algunas circunstancias, es posible. Por ejemplo, en las aplicaciones en que sólo interviene el usuario y su ordenador, lo único que éste necesita saber es si el usuario es la persona que lo utiliza habitualmente y no cualquier otro habitante de este planeta. Además, cada contexto se puede diferenciar con facilidad.

Se acerca el día en que los ordenadores serán capaces de mirarnos. Durante la guerra del Golfo Pérsico de 1990-1991, en la que muchos viajes regulares estaban prohibidos, fuimos testigos de una enorme utilización de la teleconferencia. Desde entonces, los ordenadores personales cada vez están más equipados con hardware de teleconferencia a bajo coste.

El hardware de teleconferencia consiste en una cámara de televisión centrada sobre la pantalla y el hardware o software necesario para codificar, decodificar y mostrar las imágenes en tiempo real en una parte o en toda la pantalla del ordenador. Cada vez más ordenadores personales estarán dotados con este equipamiento, aunque los diseñadores de sistemas de teleconferencia no habían pensado nunca en incorporarlo a los ordenadores personales.

DE RATONES Y HOMBRES

Neil Gershenfeld, del Media Lab del MIT, compara un ratón de ordenador de 30 dólares, cuyo uso se aprende en unos pocos minutos, con un arco de violoncelo de 30 000 dólares, cuyo aprendizaje lleva toda una vida. Compara las 16 técnicas del arco con el click, doble click y el arrastre del ratón. Es evidente que el arco es para el virtuoso y el ratón para todos los que no lo somos.

Sin embargo, un ratón es un medio sencillo pero incómodo para la entrada gráfica. Requiere cuatro pasos: 1) tantear con la mano para encontrar el ratón, 2) moverlo para hallar el cursor, 3) mover el cursor hasta donde queremos que esté, 4) hacer un click o un doble click con el botón. El diseño innovador de Apple para el Power-Book al menos tiene sólo tres pasos y el denominado «ratón muerto», o más recientemente una bola trazadora (track ball), situada donde ponemos los pulgares, de modo que se reducen las interrupciones para teclear.

Pero donde realmente los ratones y las bolas trazadoras no tienen ninguna utilidad es en el dibujo. Intente hacer una firma con una bola trazadora. Para este propósito el tablero digitalizador, una superficie plana con un lápiz con punta esférica, es una solución mucho mejor.

No obstante, no muchos ordenadores cuentan con tablero digitalizador para dibujar, y los que la tienen plantean el problema «esquizofrénico» de cómo situar a la vez el tablero y el teclado, que compiten entre sí por ocupar el lugar central y quieren estar justo enfrente y debajo de la pantalla. El conflicto se resuelve a menudo poniendo el teclado debajo de la pantalla porque muchas personas, entre las que me incluyo, no teclean.

Como resultado de este descentramiento del tablero digitalizador y de que el ratón acabe a un lado, estamos obligados a aprender una coordinación mano-ojo bastante antinatural. Se dibuja o señala un lugar y se mira a otro: podríamos decir que es como dibujar a tientas.

Douglas Englebart, el inventor del ratón en 1964, lo hizo para señalar el texto, no para dibujar. El invento se hizo popular, y hoy día está en todas partes. Jane Alexander, que preside el National Endowment of the Arts, comentó hace poco que sólo a un hombre se le podía haber ocurrido llamarlo «ratón».

Un año antes, Ivan Sutherland perfeccionaba el concepto de un lápiz óptico para dibujar directamente sobre la pantalla (ya en los años cincuenta el sistema de defensa SAGE tenía algunos lápices ópticos rudimentarios). A este lápiz le seguía un cursor en forma de cruz hecho con cinco puntos de luz. Para terminar el dibujo, tenía que dar un golpecito con la muñeca y salirse de la línea a propósito: una manera graciosa pero no muy precisa de terminar una línea.

Hoy día los lápices ópticos casi no se ven. Acercar la mano a una pantalla es una cosa (ya difícil pues provoca que se nos duerma la mano), pero cargar con un lápiz atado que pesa 100 gramos cansa mucho la mano y el brazo. Algunos lápices ópticos tenían un centímetro y medio de diámetro y al usarlos parecía como si escribiésemos una postal con un puro.

No obstante, los tableros digitalizadores son especialmente cómodos para dibujar y con un poco de esfuerzo se puede hacer que la punta tenga la textura y la riqueza del pincel de un artista, pero los que existen en la actualidad son como escribir con bolígrafos con punta esférica sobre una superficie plana y dura que necesita un espacio en el escritorio cerca de nosotros y de la pantalla. Además, como nuestros escritorios están ya bastante desordenados, la única manera de que los tableros digitalizadores puedan tener éxito comercial es que los fabricantes de muebles empiecen a construirlos dentro de los escritorios, de manera que no haya ningún aparato excepto el escritorio mismo.

ORDENADORES SENSIBLES AL TACTO

El dedo humano es un aspecto de la entrada gráfica que se ha descuidado.

Los cajeros automáticos y los puntos de información informatizados cuentan con pantallas sensibles al tacto que funcionan bastante bien. Pero no podemos usar los dedos en la pantalla con los ordenadores personales, lo cual es bastante asombroso si pensamos que el dedo humano, ¡y tenemos diez!, es un dispositivo para señalar ideal, puesto que no hace falta cogerlo con la mano. Podríamos teclear o señalar según el caso, es decir, pasar del plano horizontal al vertical con toda facilidad. Todavía no se ha logrado. Los entendidos dicen que se debe a tres motivos, pero ninguno de ellos me convence:

Cuando señalamos, tapamos aquello que señalamos. Cierto, pero lo mismo ocurre con el papel y el lápiz y ello no ha representado un obstáculo para la práctica de la escritura o el uso de un dedo para identificar algo en la letra impresa.

El dedo tiene una resolución baja. Esto es falso. Puede que sea regordete, pero tiene una resolución extraordinaria. Sólo se necesita un segundo paso, después de tocar una superficie, para retirar el dedo con elegancia y situar un cursor con toda precisión.

El dedo ensucia la pantalla. ¡Pero también la limpia!

Una manera de afrontar el asunto de las pantallas sensibles al tacto es que estarán en un espacio físico de suciedad más o menos invisible en el cual las manos limpias limpian y las sucias ensucian (o algo así).

La verdadera razón para no usar los dedos es que todavía no se ha encontrado una tecnología capaz de sensibilizar el campo cercano a un dedo: cuando éste está cerca pero no toca la pantalla. Con sólo dos acciones, tocar y no tocar, muchas aplicaciones son, como mínimo, incómodas. Si apareciera un cursor cuando el dedo estuviera, digamos, a un centímetro de la pantalla, entonces tocar la pantalla misma podría ser como usar el ratón.

Y, por último, conviene recordar que las arrugas papilares que constituyen la huella dactilar son como las cadenas para la nieve que se colocan en los neumáticos de los automóviles y aumentan la fricción en el punto de contacto entre la piel y el cristal. En realidad, esta fricción nos permite pulsar la pantalla e introducir fuerzas a este nivel.

En un dispositivo que construimos en el MIT hace veinte años, mostrábamos que al apretar con el dedo, sin moverlo, se producía la fricción suficiente para mover objetos, introducirlos y tirar de ellos, e incluso podíamos hacer que giraran. Una demostración consistía en tocar con dos o tres dedos unos botones que aparecían en la pantalla y hacerlos girar gracias a la adherencia de los dedos a la pantalla. Los botones no sólo giraban sino que también hacían «click», lo que añadía más realismo a la acción. Esto abre un amplio campo de aplicaciones que van desde los juegos para niños hasta la simplificación de la instrumentación de las cabinas de control de los aviones.

LA INTERFAZ CONTRAATACA

Los mandos de control remoto son de uso común en ambientes tóxicos para los humanos, tales como reactores nucleares. El brazo del robot trabaja dentro del reactor mientras un operador lo controla desde fuera. Lo normal es que el brazo maestro y el esclavo estén muy separados y que el operador lo vea por medio de una pantalla de televisión. El brazo esclavo suele tener un garfio en forma de pinza que el operador controla a distancia con sus dedos índice y pulgar y se sirve de él para coger y sujetar los objetos. De este modo se puede sentir el peso y la elasticidad (si la tiene) de un trozo de uranio.

Fred Brooks y sus colegas de la Universidad de Carolina del Norte tuvieron esta maravillosa idea: imaginemos que el brazo esclavo ya no existe y que los cables que antes conducían a él estuviesen conectados a un ordenador que simulara toda la experiencia. Los objetos que vemos en la pantalla ya no son reales, sino que el ordenador los modela y los presenta con todas sus características de peso y elasticidad.

Por desgracia, la capacidad táctil de un ordenador se ha diseñado casi siempre pensando en que somos nosotros quienes tocamos el ordenador y no a la inversa.

Una vez participé en la construcción del prototipo de una máquina que ofrecía resistencia, un aparato de retroalimentación forzada en el cual el esfuerzo requerido para moverlo podía ser una función de lo que nosotros quisiéramos. Por medio del control de un ordenador, podía pasar del movimiento libre a tener que empujarlo como a través de engrudo. En una aplicación, teníamos un mapa de Massachusetts con una base de datos demográficos. El usuario podía diseñar los planos de una nueva autopista moviendo este «digitador» con retroalimentación forzada. Sin embargo, la cantidad de fuerza necesaria para empujarlo variaba en función del número de familias que habría que desplazar de su hogar. De hecho, para trazar la nueva autopista se cerraban los ojos y se tanteaba físicamente el camino que ofrecía menos resistencia.

Cuando IBM añadió la palanquita roja como sustituto del ratón en medio del teclado de su ThinkPad, introdujo esta aplicación de retroalimentación forzada (porque es sensible a la fuerza y no al desplazamiento). Ojalá que pronto podamos disfrutar de un uso más amplio de ordenadores sensibles al tacto y que las aplicaciones evolucionen hasta el punto de hacernos sentir que la palanca del ThinkPad ofrece resistencia.

Otro ejemplo de ello lo mostró Alan Kay, considerado el padre de los ordenadores personales. Uno de sus investigadores de Apple Computer diseñó un ratón «obstinado» que usaba un campo magnético variable para hacerse más o menos difícil de mover. Al aplicar toda la corriente magnética, el ratón se interrumpía del todo y dejaba de moverse, manteniendo el cursor fuera de áreas prohibidas.

ECHEMOS UN VISTAZO A NUESTRO ORDENADOR

Imaginemos que estamos leyendo una pantalla de ordenador y podemos preguntar: ¿Qué significa eso? ¿Quién es ella? ¿Cómo he llegado hasta aquí?

«Eso», «ella» y «aquí» se definen por la dirección de nuestra mirada en ese momento. Las preguntas se refieren al punto de contacto entre nuestros ojos y el texto. Sin embargo, a los ojos no se los considera habitualmente mecanismos de salida, aunque siempre los usemos como tales.

La forma en que los humanos detectamos la dirección de las miradas de los demás y hacemos que nuestros ojos contacten se puede considerar mágica. Imaginemos que estamos a seis metros de otra persona que a veces nos mira directamente a los ojos y otras nos mira un poco por encima de nuestro hombro.

Inmediatamente se nota la diferencia, incluso si la dirección de la mirada de esa persona se desvía una fracción del eje de nuestra mirada. ¿Cómo sucede esto?

Seguro que no es por trigonometría. Si lo fuera, podríamos calcular el ángulo de una normal al plano de las esferas de los ojos de la otra persona y después comprobaríamos si esa normal hace intersección con la línea de nuestra propia mirada. Pero no es eso. Ocurre algo diferente: entre nuestros ojos y los de la otra persona pasa un mensaje y no tenemos el menor indicio de cómo sucede.

Siempre usamos los ojos para señalar objetos. Si se nos pregunta adonde ha ido alguien, podemos responder con una simple mirada hacia la puerta abierta. Para explicar lo que hay que cargar, podemos mirar una maleta y no otra. Esta manera de señalar, combinada con los gestos de la cabeza, es un poderoso medio de comunicación.

De hecho, existen varios sistemas de seguimiento ocular. Una de las primeras demostraciones que vi era un seguidor de ojos montado en un casco que cambiaba el idioma del texto de la pantalla del inglés al francés a medida que uno iba leyendo. Cuando el centro de la visión cambiaba de palabra a palabra, iban apareciendo palabras francesas y en la pantalla parecía que todo el texto era en francés. Un observador exterior, cuyos ojos no eran controlados, veía el texto de la pantalla con un 99% de palabras en inglés (para ser exactos, todas las palabras excepto la que estaba mirando la persona que llevaba puesto el seguidor de ojos).

Los sistemas más modernos de seguimiento ocular utilizan cámaras de televisión por control remoto para que el usuario no tenga que llevar puesto ningún aparato. En la actualidad, una configuración de teleconferencia con vídeo es muy apropiada para incluir un seguidor ocular, porque el usuario suele sentarse más o menos enfrente de la pantalla a una distancia relativamente fija. A menudo sucede que miramos a los ojos de la persona que se halla al otro lado, porque el ordenador es capaz de saber dónde están.

Cuanto más saben los ordenadores sobre nuestra posición, postura y naturaleza particular de nuestros ojos, más fácil les resulta saber hacia dónde miramos. La ironía es que este medio exótico que son los ojos-como-entrada encontrará su primera aplicación en la configuración más bien corriente de una persona sentada ante un ordenador.

Pero seguro que funcionará todavía mejor cuando se use en combinación con otro canal de entrada, como la voz.