REALIDAD VIRTUAL 20/20

OXÍMORON O PLEONASMO

Mike Hammer (no el detective, sino el mundialmente conocido médico de corporaciones o doctor en ciencias empresariales, también llamado reingeniero), llama «cambio colectivo» a un oxímoron que está a punto de convertirse en un pleonasmo. Un pleonasmo es una expresión redundante como «en mi propia mente». Se puede decir que lo contrario es un oxímoron: una contradicción aparente como «inteligencia artificial» o «comida de avión». Si se dieran premios al mejor oxímoron, «realidad virtual» podría ganar uno.

Si entendemos las palabras «realidad virtual» como mitades iguales, la conclusión lógica es que realidad virtual es un concepto redundante. La realidad virtual puede hacer que lo artificial parezca tan real, o incluso más, que la propia realidad.

Por ejemplo, la simulación de vuelo, la aplicación más antigua y conocida de la realidad virtual, parece más real que volar en un avión «de verdad». Pilotos recién entrenados pero perfectamente capaces toman el mando por primera vez en un Boeing 747 «real» cargado de pasajeros porque han aprendido más en el simulador de lo que podrían haber aprendido pilotando un avión. En el simulador, se puede someter al piloto a toda clase de situaciones límite que, en el mundo real, serían imposibles de recrear, pues provocarían situaciones peligrosas o incluso la destrucción del avión.

Otra aplicación didáctica de la realidad virtual consistiría en adoptar su uso en las autoescuelas. Si en una carretera resbaladiza, un niño sale corriendo de entre dos coches, ninguno de nosotros sabe cómo hay que reaccionar. La realidad virtual nos permite experimentar una situación «con nuestro propio cuerpo».

La idea básica de la realidad virtual es provocar la sensación de «estar ahí», pues proporciona a los sentidos, a la vista por lo menos, lo mismo que recibirían si uno estuviese realmente ahí y, más importante aún, cambia instantáneamente la imagen cuando se cambia de punto de vista. Nuestra percepción de la realidad espacial la genera una serie de indicaciones visuales, como tamaño relativo, brillo y movimiento angular. Una de las más fuertes es la perspectiva, que es particularmente poderosa en su forma binocular, en la que el ojo derecho y el izquierdo ven imágenes diferentes. La fusión de ambas en una percepción en tres dimensiones es la base de la estereovisión.

La percepción de profundidad que experimentamos cuando cada ojo ve una imagen ligeramente distinta del otro, llamada «paralaje del ojo», es más efectiva con objetos cercanos, digamos a dos metros de distancia. Los objetos más alejados los percibimos básicamente igual con cada ojo. ¿Se ha preguntado alguna vez por qué una película en tres dimensiones tiene tanto movimiento de un lado a otro en el campo cercano, con objetos que siempre vuelan hacia el público? Pues porque es ahí donde las imágenes estereoscópicas funcionan mejor.

El equipo típico de la realidad virtual es un casco provisto con visores en forma de gafas, uno para cada ojo. Cada visor proporciona una imagen en perspectiva ligeramente diferente de lo que veríamos si estuviéramos ahí. En principio, cuando movemos la cabeza, las imágenes se actualizan tan deprisa que nos da la impresión de estar haciendo esos cambios con el movimiento de la cabeza, aunque en realidad es el ordenador el que sigue nuestro movimiento. Se tiene la sensación de que uno mismo es la causa, no el efecto.

La medida de hasta qué punto puede parecer real la experiencia visual se debe a una combinación de dos factores. El primero es la calidad de imagen: el número de contornos visualizados y la textura entre ellos. El segundo es el tiempo de respuesta: la velocidad con la que las escenas se actualizan. Ambas variables necesitan cantidades enormes de potencia informática y, hasta hace poco, han estado fuera del alcance de la mayoría de los fabricantes.

La realidad virtual empezó ya en 1968, cuando nada menos que Ivan Sutherland construyó el primer sistema de presentación instalado en un casco. Trabajos posteriores de la NASA y del Departamento de Defensa norteamericano se concretaron en algunos carísimos prototipos utilizados para la exploración espacial y para aplicaciones militares. Un uso idóneo de la realidad virtual fue el entrenamiento para la conducción y pilotaje de tanques y submarinos, porque la experiencia «real» obliga de todos modos a mirar a través de binoculares o periscopios.

Sólo ahora, cuando disponemos de ordenadores con la velocidad suficiente y a bajo coste, podemos pensar en esta tecnología como un medio de entretenimiento para el consumo. De todos modos, no dejará de impresionarnos.

EL COMANDO DE SOFÁ

Un parque jurásico sería una experiencia de realidad virtual fantástica. A diferencia del libro o de la película del mismo nombre, éste no necesitaría argumento. Michael Crichton se limitaría a diseñar la escenografía o parque temático y dotar a cada dinosaurio de aspecto, personalidad, comportamiento y finalidad. Empieza el simulacro. Entramos. Esto no es la televisión y no hace falta que sea tan aséptico como Disneylandia. No hay multitudes, ni colas, ni olor de palomitas, sino excrementos de dinosaurio. Es como estar en una selva prehistórica y se puede hacer que parezca más peligrosa que cualquier selva real.

Las generaciones futuras de niños y adultos se divertirán de este modo.

Puesto que las imágenes son informáticas, no reales, no es necesario limitarse a representaciones o lugares reales. La realidad virtual nos permitirá tener la Vía Láctea en las manos, nadar a través de la corriente sanguínea del cuerpo humano o visitar a Alicia en el País de las Maravillas.

La realidad virtual de hoy día presenta algunos inconvenientes y fallos técnicos que se tienen que corregir para que la experiencia sea atractiva para la gran mayoría.

Por ejemplo, la realidad virtual de bajo coste está repleta de gráficos de baja calidad con dentados. En el caso del movimiento, los dentados son aún más inestables porque aparentan moverse y no siempre lo hacen en la misma dirección en que lo hace la escena. Pensemos en la línea del horizonte, perfectamente horizontal. Ahora la inclinamos, sólo un poco, y aparece un dentado en el medio. Después la inclinamos un poco más, y aparecen dos, luego tres, y otros más; ahora ya parece que se mueven, hasta que llegamos a un ángulo de 45 grados y la línea recta se ha convertido en una perfecta escalera de dentados compuestos de píxeles que van de esquina a esquina de la imagen.

Es horrible.

Pero lo peor de todo es que la realidad virtual no es lo bastante rápida.

Todos los sistemas comerciales, en particular los que pronto comercializarán los principales fabricantes de videojuegos, son lentos. Cuando se mueve la cabeza, la imagen cambia enseguida, pero no lo hace con la velocidad necesaria, sino que se retrasa.

En los primeros tiempos de los gráficos por ordenador en tres dimensiones, se usaban gafas estereoscópicas de distintas clases para conseguir el efecto deseado. Algunas eran lentes polarizadas baratas y otras disparadores electrónicos más caros que exponían alternativamente cada ojo a una imagen diferente.

Recuerdo que las primeras veces que trabajé con ese tipo de aparatos, cuando la gente se ponía aquellas gafas por primera vez para ver la pantalla en tres dimensiones, todos sin excepción movían la cabeza de lado a lado, intentando hacer que las imágenes cambiasen. Pero del mismo modo que en las películas de tres dimensiones, esto no ocurría. El movimiento de la cabeza no afectaba a las imágenes.

Esta respuesta humana, la denominada «reacción de tirón de cuello», es elocuente. La realidad virtual tiene que estar en perfecta coordinación con el movimiento y la percepción del lugar para permitir al espectador que sea él y no la máquina quien produzca los cambios. En la realidad virtual lo único que cuenta es seguir la trayectoria de la cabeza y responder a la velocidad de sus movimientos. La rapidez con que se actualiza la imagen (la frecuencia de respuesta) es más importante que la resolución. Esto demuestra que nuestro sistema motriz es tan agudo que el menor retraso estropea la experiencia.

Es posible que muchos fabricantes se equivoquen y opten por vender sistemas primitivos de realidad virtual con la más alta resolución posible, a expensas del tiempo de respuesta. Sin embargo, proporcionarían una experiencia de realidad virtual mucho más satisfactoria si exhibieran menos gráficos, y aumentaran la velocidad de respuesta.

La alternativa es abandonar la presentación montada en cascos, que proporciona imágenes a cada ojo por separado, y adoptar las tecnologías llamadas «autoestereoscópicas», que emiten un objeto real o imagen holográfica en el espacio, y la comunican a los dos ojos.

CABEZAS PARLANTES

A mediados de los años setenta, el ARPA puso en marcha un gran proyecto de investigación en teleconferencia con el objeto de estudiar un aspecto importante de la seguridad nacional. En concreto, se trataba de transmitir electrónicamente la sensación de presencia humana más realista posible a cinco personas en particular situadas en cinco lugares diferentes. Cada una de estas cinco personas, aisladas físicamente, tenía que creer que las otras cuatro estaban «realmente» presentes.

Este extraordinario esfuerzo en telecomunicaciones formaba parte de las medidas de emergencia gubernamentales que debían adoptarse en el caso de amenaza de ataque nuclear. Durante aquella década se procedió a realizar la siguiente acción: el presidente de Estados Unidos, el vicepresidente, el secretario de Estado, el presidente del Tribunal Supremo y el portavoz de la Casa Blanca irían a un conocido lugar situado bajo una montaña en Virginia. Allí defenderían la nación desde una sala avanzada de mando-y-control (como la de la película Juegos de guerra), que en principio era inexpugnable.

Pero surgió la pregunta de hasta qué punto era lo bastante seguro tener a estas cinco personas en un mismo lugar.

¿No sería más seguro tenerlos en cinco lugares diferentes (uno en el aire, otro en un submarino, otro bajo una montaña, etc.) si realmente pudieran sentirse como si estuvieran juntos en un solo lugar? Evidentemente, la respuesta fue afirmativa y con este propósito el ARPA emprendió sus investigaciones avanzadas en teleconferencia, a través de las cuales mis colegas y yo fuimos contratados para crear una «telepresencia» humana digital, en tiempo real.

Nuestra solución era construir una réplica de la cabeza de cada persona cuatro veces, con una máscara traslúcida de tamaño real y con la forma exacta de la cara de cada una de las personas. Cada máscara se montaría sobre suspensiones que le permitían realizar dos tipos de movimiento, cabecear y girar. Dentro de cada máscara se proyectarían imágenes muy bien grabadas.

En cada escenario se situaba una persona real y cuatro cabezas móviles de plástico, todas sentadas alrededor de una mesa en el mismo orden.

La escena se grababa y se transmitía la imagen en vídeo de cada persona y la posición de su cabeza. Si el presidente se giraba para hablar con el vicepresidente, el secretario de Estado vería sus respectivas cabezas de plástico hacer lo mismo desde su posición. Reconozco que suena extraño…

El vídeo proyectado de esta manera resultaba una recreación de vida tan creíble que un almirante me dijo que las «cabezas parlantes» le producían pesadillas. Él prefería recibir un telegrama confidencial en papel amarillo del presidente que dijera «FUEGO» en lugar de la cabeza parlante del comandante en jefe en el puente de su portaaviones. Es extraño que se mostrara tan paranoico respecto a si la imagen de vídeo y la voz eran de verdad las del presidente o las de alguien que se hacía pasar por él puesto que un telegrama es mucho más fácil de falsificar.

De todos modos, es probable que no sepamos descomponer, transmitir y recomponer gente (o hamburguesas o jerseys de cachemira) hasta dentro de uno o dos milenios.

Pero mientras tanto, habrá muchas técnicas de presentación distintas de las pantallas planas o casiplanas a las que estamos acostumbrados. El límite que rodea a la presentación, el llamado «bezel», será menos constrictivo para imágenes grandes y pequeñas.

Algunos de los aparatos digitales más imaginativos del futuro no tendrán límite de ningún tipo.

TRES DIMENSIONES DE R2D2

Algún día durante el próximo milenio, cuando nuestros nietos o bisnietos quieran ver un partido de fútbol, retirarán la mesa del comedor y dejarán que futbolistas de 20 centímetros con una pelota de dos centímetros corran por la sala de estar; en el supuesto de que existan partidos de fútbol, mesas de comedor y salas de estar.

Este modelo es justo lo contrario de la realidad virtual de la primera época. Toda la resolución se transmite a todas partes para que se pueda apreciar desde cualquier punto de vista. Se mire desde donde se mire se ven píxeles de tres dimensiones, también llamados «voxels o boxels», flotando en el espacio.

En La guerra de las galaxias, R2D2 proyectaba de este modo la imagen de la princesa Leia en el suelo de la casa de ObiWan Kenobi: la hermosa princesa era una aparición fantasmagórica emitida en el espacio, visible, en principio, desde cualquier ángulo. Este efecto especial, como tantos otros utilizados en Star Trek y otras películas de ciencia-ficción, ha creado, sin darnos cuenta, un público que ya está familiarizado con tecnologías tales como la holografía. Lo hemos visto tan a menudo en las películas que creemos que es más fácil de lo que en realidad es.

De hecho, el catedrático del MIT, Stephen Benton, quien inventó el holograma de luz blanca, común hoy día en las tarjetas de crédito, tardó más de veinte años en llegar a un resultado similar usando la velocidad de un superordenador de un millón de dólares, ópticas de valor incalculable fabricadas a propósito y la energía implacable de una docena de brillantes aspirantes al doctorado.

La holografía la inventó el científico húngaro Dennis Gabor en l948.

La manera más sencilla de explicar lo que es un holograma es definirlo como una colección de todos los puntos de vista posibles en un solo plano de patrones de modulación de luz. Cuando se hace pasar la luz a través de este plano, o se refleja desde él, la escena se reconstruye ópticamente en el espacio.

La holografía ha sido un caballo olvidado en la carrera para mejorar la presentación. Una de las razones es que la holografía requiere una resolución masiva. Se supone que el televisor tiene 480 líneas de barrido visibles, aunque casi siempre tiene muchas menos. Una pantalla de televisión de 25 centímetros de alto, tiene, en el mejor de los casos, 30 líneas por centímetro. La holografía necesita al menos 30 000 líneas por centímetro, es decir 1000 veces más líneas de barrido horizontal. Peor aún, la resolución es necesaria en ambas coordenadas X e Y, o sea 1000 al cuadrado, o un millón de veces la resolución de la televisión actual. Una de las razones por las que hay hologramas en tarjetas de crédito y en los billetes de algunos países es que esa resolución necesita para imprimirse una tecnología muy sofisticada y difícil de falsificar.

Si Benton y sus colegas han hecho algún progreso es porque han logrado entender lo que el ojo y el sistema perceptivo humanos necesitan en realidad: lo contrario de lo que el típico holograma puede producir. Puesto que el ojo humano es el cliente de la imagen, sería inútil presentarle la imagen con más detalle del que puede apreciar.

También se han dado cuenta de que se mira la imagen espacial (muestreo en el espacio) de una manera muy similar a como se miran los fotogramas individuales de una película (muestreo en el tiempo). El vídeo ofrece movimiento uniforme con 30 fotogramas (60 campos) por segundo. Por lo tanto, en lugar de hacer que un holograma represente «todos» los puntos de vista, ¿por qué no representar un punto de vista diferente cada fracción de centímetro y obviar la información que hay entre medio? Este sistema funciona.

Además, Benton y sus colegas advirtieron que nuestro sentido del espacio es muy horizontal. A causa del paralaje del ojo en los dos lados y dado que tendemos a movernos sobre todo en planos horizontales, el paralaje horizontal domina como guía espacial al paralaje vertical del plano arriba-abajo.

Esto no sería igual si nuestros ojos estuvieran situados uno encima del otro o si subiéramos y bajáramos muchos árboles. Pero no lo hacemos. De hecho, el énfasis horizontal de nuestra percepción es tan dominante que Benson concluyó que podía descartar por completo el paralaje vertical.

Ésta es la razón por la que casi ninguno de los hologramas presentados en el Media Lab del MIT tiene paralaje vertical. Cuando muestro a los visitantes la pequeña galería de ejemplos que cuelgan fuera del laboratorio de Benton, no lo notan. De hecho, cuando se lo digo, la gente dobla las piernas y se pone de puntillas varias veces antes de creérselo.

El resultado del muestreo espacial, combinado únicamente con el uso del paralaje horizontal, es que el grupo de Benton necesita una diezmilésima parte de la potencia informática que sería necesaria para producir un holograma en condiciones normales con toda su resolución.

Es por eso que han logrado hacer el primer vídeo holográfico en tiempo real y a todo color, con imágenes matizadas y que flota libremente en el espacio. Tiene más o menos el tamaño y la forma de una taza de café o de una princesa Leia un poco paticorta.

MÁS QUE LO QUE SALTA A LA VISTA

La calidad de una presentación sensorial es literalmente más que lo que salta a la vista. Es una experiencia visual que mueve a los otros sentidos. La sensación del conjunto como un todo es mucho mayor que la suma de las partes.

En los primeros tiempos de la televisión de alta definición, el sociólogo Russ Neuman, que entonces trabajaba en el Media Lab del MIT, dirigió un experimento sin precedentes sobre la respuesta de la audiencia a la calidad de la presentación.

La prueba consistía en montar dos televisores y dos reproductores de vídeo de alta calidad e idénticos entre sí, que reproducían las mismas cintas de vídeo también de alta calidad. Sin embargo, uno de los equipos (A) tenía la calidad de sonido normal para un vídeo y los pequeños altavoces del televisor. El otro (B) tenía un sonido de mejor calidad que el de un CD y unos excelentes altavoces.

El resultado fue sorprendente. Muchos participantes en la prueba manifestaron que veían una imagen mucho mejor en el equipo B. La calidad de la imagen era la misma, pero la experiencia visual fue muy superior. Esto demuestra que tendemos a juzgar nuestras experiencias como un todo sensorial, no por partes. Esta importante observación a veces se omite en el diseño de sistemas de realidad virtual.

En el diseño de los tanques militares de entrenamiento, se ha realizado un esfuerzo considerable, casi sin límites económicos, para alcanzar la mayor calidad posible de presentación, de modo que mirar por el visor fuese lo más parecido posible a mirar a través de la pequeña ventana de un tanque real. Sin embargo, sólo tras laboriosas tentativas para incrementar el número de líneas de barrido, se les ocurrió a los diseñadores introducir una sencilla plataforma de movimiento que produjera una ligera vibración. Gracias a la inclusión posterior de algunos efectos sensoriales complementarios, como el sonido del motor y de los rodamientos del tanque, se pudo alcanzar tanto «realismo» que los diseñadores pudieron reducir el número de líneas de barrido sin rebajar ni un ápice los requerimientos necesarios para que el sistema pareciera real y se experimentara como tal.

Muchas veces me preguntan por qué me pongo las gafas de leer cuando como; evidentemente, no necesito gafas para ver la comida o el tenedor.

Mi respuesta es sencillamente que la comida sabe mejor cuando llevo las gafas puestas. Ver la comida con claridad es parte del placer de comer. Mirar y tocar son complementarios.