3

PAGERANK:
LA BASE DEL ÉXITO DE GOOGLE

El método PageRank debe su nombre a su inventor, Larry Page, pero también a la posición que ocupan las páginas web (web page) en un ranking. El éxito de Google se debe al algoritmo PageRank, que mide la popularidad de una página web y utiliza esta medición para clasificar la página en una lista de resultados. Larry Page registró en 1998 la patente «Method for node ranking in a linked database», con la que desarrolló lo que el resto de buscadores habían intentado conseguir en vano durante años: un método para crear un orden de relevancia en una base de datos en función de las relaciones existentes entre los propios datos.

En el método PageRank, las páginas web se evalúan y ponderan teniendo en cuenta los enlaces: cuantos más links remitan a un sitio, más importante será el sitio. Pero no sólo se valoran los enlaces, sino también las páginas de las que proceden dichos enlaces. Cuanto más relevantes sean las páginas de procedencia, más valiosos serán los enlaces y, por consiguiente, la página referida subirá en la jerarquía.

El planteamiento de PageRank tiene sus raíces en el campo de la ciencia, tal como explica David Vise en su libro La historia Google: «A Page los enlaces le recordaban la forma de clasificar los ensayos científicos en función de la frecuencia de las citas». Cuanto más se nombra un trabajo científico en otro, mejor y más importante será su puesto en la clasificación. Esta misma sistemática también se podría aplicar a páginas web, pero hay un problema: cantidad no implica calidad. Para resolver este inconveniente, Larry Page añadió el «elemento cualitativo»: los enlaces procedentes de páginas importantes tendrán mayor peso y aportarán puntos extra, por llamarlos de algún modo, que repercutirán a su vez en el ranking. Toda esta perspicacia está integrada en el algoritmo de PageRank, uno de los secretos mejor guardados de Google. Pero ¿es realmente objetivo?

Los trucos de búsqueda

De hecho, PageRank y, por consiguiente, los robots de búsqueda de Google que escudriñan la totalidad de la World Wide Web, crean los índices de búsqueda y establecen el orden de importancia, se dejan engañar. Los buscadores emplean crawlers y bots, unos programas que analizan automáticamente las páginas web. En caso de que Google amenazara con no indexar una página (es decir, que la página ya no se encontraría con el buscador), existen algunos métodos muy extendidos que lo evitan. Uno de los más populares es el truco de la página satélite, consistente en repetir montones de veces los términos relativos a un determinado tema en una página invisible, de manera que los robots de búsqueda de Google consideran relevante esta página y le hacen subir puestos en la clasificación. En 2006 se consideró a BMW culpable de utilizar este ardid y durante un tiempo no se pudo encontrar ninguna página suya con Google.

Otro truco muy extendido es el del color de fondo. Consiste en escribir los términos en la página web con una fuente del mismo color que el fondo para que no se vean. Esta trampa se descubre con facilidad si abrimos la página en modo de código fuente (en el Internet Explorer, seleccionando «Ver» y «Código fuente»), pero prácticamente nadie lo hace cuando navega.

También se suele aplicar el truco de los enlaces. Como Google clasifica los sitios web como más relevantes cuando muchas otras páginas remiten a ellos, se puede influir en la relevancia del sitio que se desee acumulando enlaces al mismo. El truco de los links está muy extendido en foros y blogs, donde se pueden incluir enlaces al final de los comentarios.

Los trucos de programación también son habituales: se crea una página de manera que el robot de búsqueda la reconozca y utilice el texto que considere relevante sin que los internautas lo vean, pero, de hecho, esto es lo que ha pasado siempre con cualquier página bienintencionada que quiere ser encontrada. Otra posibilidad, más bien mezquina, es el truco del servidor, consistente en alojar en un servidor miles de páginas que se remitan mutuamente, con lo cual aumenta su relevancia. Esta trampa la utilizan sobre todo los proveedores de pornografía para que sus páginas aparezcan lo más arriba posible en la lista de resultados.

Una artimaña a la que Google declaró la guerra con un nuevo algoritmo a principios de 2007 es el Google bombing. Se trata de un método con el que, a partir de un texto ancla (texto con un hipervínculo), se activan cientos de vínculos en la Red. Al buscar este texto, en los resultados aparece la página con el enlace y la página a la que remite el enlace. Los activistas de Internet emplean este sistema para que, al introducir un determinado concepto de búsqueda, aparezca en el primer lugar de la lista de resultados, o como mínimo en la primera página, el sitio web de algún político u organismo conocidos. Antes, cuando buscábamos el término «failure» (fracaso), esta manipulación nos remitía a la página de la Casa Blanca, y si tecleábamos «liar» (mentiroso) aparecía el sitio oficial del anterior primer ministro británico Tony Blair. El ministro de Economía austríaco, Karl Heinz Glaser, también aparecía en primer lugar cuando el usuario introducía «vollige Inkompetenz» (incompetencia total) en el cuadro de búsqueda de google.at y pulsaba «Voy a tener suerte».

No hay encuentros casuales

El breve recorrido por la estructura básica de Google demuestra que es perfectamente posible manipular los resultados de búsqueda y que cualquiera puede hacerlo. De la misma manera, también podemos suponer que Google influye en el ranking. «No se venden enlaces normales, sólo se valora la relevancia de la página», asegura el máximo responsable de investigación de Google, Peter Norvig. «Nuestro algoritmo de búsqueda es una combinación de lo que la gente quiere y lo popular. Cuando encontremos un método mejor, lo incorporaremos a nuestros algoritmos de búsqueda».

Sin embargo, dos experimentos indican que el método PageRank no es del todo objetivo. Uno de ellos demuestra que Google favorece a la Wikipedia. En el estudio «Report on dangers and opportunities posed by large search engines, particularly Google», publicado en el otoño de 2007 por unos expertos en TI dirigidos por el profesor Hermann Maurer de la Universidad Tecnológica de Graz, se investigó el trato que distintos buscadores daban a las entradas de la enciclopedia virtual. El experimento, que se hizo introduciendo cien términos en alemán y cien en inglés en cuatro buscadores distintos (Google.de/.com, Yahoo!.de/.com, AltaVista.de/.com y Live.de/.com) dio como resultado que Google prefiere a la Wikipedia.

Las entradas de la enciclopedia libre aparecieron en el primer lugar de los resultados de google.de en un 70% de las búsquedas, mientras que en sus competidores el porcentaje fue claramente menor (Yahoo!, 50%; AltaVista, 45% y Live, 21%). En las versiones inglesas de los buscadores, la cuota de aparición de la Wikipedia fue menor. En google.com sólo llegó a un 43% de entradas en la primera posición.

Sin embargo, si consideramos los tres primeros puestos de la lista de resultados (según un estudio de AOL, casi el 75% de los internautas sólo hacen clic en una de las tres primeras posiciones), la cuota de Wikipedia en google.de fue del 91%; en Yahoo!.com, 62%; en AltaVista.de, 58% (AltaVista.com, 37%) y en Live.de, 27% (live.com, 24%).

El segundo experimento lo realicé yo mismo. Introduje cien denominaciones de modelos de distintos aparatos electrónicos (videocámaras, televisores de pantalla plana, teléfonos móviles) en las páginas Google.com, Google.de, Google.ch y Google.at, con la intención de saber más sobre estos aparatos (especificaciones, características, fichas técnicas). El objetivo era descubrir con qué frecuencia aparecían las páginas de los fabricantes, ya que éstos proporcionan información de primera mano, y con qué frecuencia lo hacían otras ofertas comerciales, como las páginas de comparativas de precios. Los mejores resultados fueron los de Google.com: con diez consultas (100 resultados en total), solamente se colaron en la lista 19 páginas de comparativas. En cambio, con cinco consultas aparecieron en la primera posición de la lista unos «resultados de búsqueda de producto» que remitían directamente a tiendas online. Con seis búsquedas, la página del fabricante se clasificaba en primer lugar.

Google.de también proporcionó resultados relativamente buenos, aunque entre los 100 resultados aparecieron por lo menos 49 enlaces a páginas de comparativas y tiendas. En cambio, con diez búsquedas, las páginas de los fabricantes aparecieron cinco veces en la primera posición. Los peores resultados los ofrecieron Google.ch y Google.at. Al buscar un reproductor Blu-Ray de Panasonic, nueve de los diez resultados fueron comparativas de precios, mientras que al buscar el navegador GPS Garmin Nüvi 750 todos los resultados fueron exclusivamente comparativas y tiendas online. De los 100 resultados de las diez consultas, las páginas de comparativas eran el 57% en Google.at y el 52% en Google.ch. Las páginas de fabricantes con información «objetiva» ocuparon las tres primeras posiciones en siete ocasiones en Google.at y en seis en Google.ch. La calidad del algoritmo de búsqueda no queda demostrada con estas cifras.

Sin embargo este algoritmo es de vital importancia para una empresa que quiera actuar en la era de las TI. Dado que sólo los primeros tres a cinco resultados de búsqueda son relevantes para la mayoría de los usuarios de Internet, las firmas están obligadas a ocupar uno de estos primeros puestos. Sólo llegará al cliente quien se sitúe más arriba en la lista de resultados.

Enlaces comprados

«Antes de entrar en Google pensaba que el motor de búsqueda funcionaba fantásticamente bien», dice Peter Norvig. «Ahora que trabajo aquí debo admitir que el buscador ya no es lo que era. A menudo, cuando miramos las listas de aciertos, nos decimos: chicos, aquí hay un montón resultados». Aparte de la investigación, Norvig también es el responsable de la calidad de las búsquedas. «Somos buenos cuando alguien busca un modelo de móvil, pero nos cuesta más ofrecer resultados cuando alguien busca información sobre las causas del conflicto en Oriente próximo a principios de la década de los treinta».

En Google se trabaja con ahínco para resolver los problemas. El que más preocupa a Norvig son los resultados que muestran páginas comerciales como eBay o comparativas de precios, ya mencionadas anteriormente. Por este motivo se han realizado algunas modificaciones en el sistema para que las páginas de eBay no aparezcan a la cabeza en la lista de resultados de búsqueda. Oficialmente, el desplazamiento de la web de subastas a posiciones inferiores tiene que ver con los robots de búsqueda de Google (crawlers), que sólo examinan las páginas de eBay una vez por semana y, debido a ello, también muestran subastas caducadas en la lista de resultados, pero, oficiosamente, la relegación de eBay podría tener otro motivo.

En el verano de 2007, ambos gigantes de Internet vivieron un intenso enfrentamiento a causa de los sistemas de pago en línea. eBay poseía PayPal, uno de los principales de la Red, y no toleraba ninguna competencia al respecto, que era precisamente lo que Google hacía con su sistema Checkout, para el cual también quería ganarse a los usuarios de eBay. De repente, los dos colosos estadounidenses que durante años habían convivido en armonía, se convirtieron en enemigos acérrimos y eBay canceló un encargo millonario porque Google pretendía captar clientes de PayPal. La casa de subastas online era hasta entonces uno de los mayores clientes publicitarios de Google, a quien pagaba cada año cantidades desorbitadas por determinadas palabras clave. No sólo se trataba de anunciarse en las búsquedas que contuviesen términos como «auction» «sell», «subasta» o «puja». Los internautas que, aparte de estas palabras, simplemente buscaban productos, obtenían enlaces de eBay no sólo en la sección «Enlaces patrocinados», sino también en la zona sin publicidad de la lista de resultados.

«Defenderemos a PayPal con vehemencia», dijo Meg Whitman, a la sazón presidenta ejecutiva de eBay. El portal de subastas no estaba dispuesto a confiar el sistema de pago a otros cuando su propio método era, además, uno de sus principales negocios. La retirada por parte de eBay del dinero para publicidad debido a la problemática con Checkout abriría las puertas a tomar las medidas correspondientes en la lista de resultados del buscador. Oficiosamente, por supuesto, aunque el responsable de investigación de Google, Peter Norvig, me lo confirmó en una entrevista: «Hemos implementado algunas modificaciones en el sistema que han hecho que los sitios de eBay no aparezcan en las primeras páginas». Que tales cambios se hicieran palpables poco después del conflicto PayPal-Checkout era, por lo visto, pura coincidencia. Así lo cree también Danny Sulllivan, el mayor experto en motores de búsqueda del mundo y editor, junto con SearchEngineWatch, de uno de los más completos portales informativos sobre buscadores: «Google sigue siendo objetivo; en el litigio de Checkout no se modificaron los resultados de búsqueda normales».

Google ha demostrado en varias ocasiones que el índice de búsquedas a través del cual se encuentran productos, empresas, etc., es totalmente manipulable y que se puede tachar de él a cualquiera. A principios de 2006, BMW y el fabricante de fotocopiadoras Ricoh fueron eliminados del índice de búsquedas durante un tiempo. De la misma manera, también se ha demostrado que Google ha tenido que arrodillarse ante determinadas instituciones con mucho poder: presionada por la Cienciología, el buscador tuvo que excluir del índice una serie de páginas críticas con esta organización, concretamente la referida a la «Operation Clambake» (www.xenu.net).^[2]

En cualquier caso, y retomando la disputa eBay-Google, que nadie se preocupe por la web de subastas, puesto que se ha convertido en una tienda online donde las compras han superado a las pujas. Sin embargo, el caso deja claro que las empresas dependen de Google. Si la gente de Mountain View no quiere que una firma se encuentre, no se encontrará.

Con el conflicto Google-eBay sobre la mesa, quien afirme que los resultados de búsqueda normales no están a la venta y que sólo la relevancia de una página es decisiva para su posicionamiento, se equivoca, porque ha quedado demostrado que Google ha relegado las páginas de eBay a posiciones menos visibles. Si alguien deja de aportar dinero al sistema AdWords, el negocio principal de Google (véase el capítulo «El amo de la publicidad asalta el mercado offline») y es muy posible que su acción tenga consecuencias en la lista de resultados. Aunque las posiciones en los resultados de búsqueda normales no se puedan comprar, la relación entre los enlaces publicitarios y los de los resultados normales es probablemente muy estrecha y se afectan mutuamente. Y es que la mentalidad del «quien paga, manda» está a la orden del día en determinados ámbitos del sector de la comunicación.

La búsqueda definitiva

Muy pronto, la imagen de Google «y compañía» cambiará completamente y en los resultados de búsqueda no sólo aparecerán líneas de texto, sino también fotografías y vídeos. Por ejemplo: si queremos saber dónde se han celebrado hasta la fecha los Juegos Olímpicos, junto a los resultados textuales veremos también incrustado Google Earth, y sobre el globo virtual aparecerán marcadas todas las sedes olímpicas. Hasta aquí, ningún reparo, ya que supone una mejor visión de conjunto para los internautas. Según la encuesta de MarketAgent.com, esta «búsqueda universal» sería «interesante» o «muy interesante» para casi tres cuartas partes de los usuarios de Google. Sin embargo, la búsqueda multimedia también deja clara otra cosa: Google quiere ser algo parecido a un proveedor de información integral que, con sólo pulsar un botón, te ofrezca todo tipos de datos, desde fotos y vídeos hasta audio y libros, lo que generalmente se entiende por «contenidos».

Otra innovación es la «pregunta lógica». Cuando hoy tecleamos en el cuadro de búsqueda «cuál es la capital de Francia», Google nos responde «París». En cambio, la cosa se complica si preguntamos «¿Quién ganó la carrera femenina de 100 metros lisos en los Juegos Olímpicos de 1972?». Uno de los retos a los que se enfrentan actualmente los buscadores son las palabras que tienen varios significados, como «java», que puede referirse a la isla o al lenguaje de programación, o bien la palabra inglesa «spears», que puede designar unas lanzas o el nombre la ex estrella del pop Britney Spears. Lo mismo sucede también con el vocablo «turkey». Por ello, y esto es algo que probablemente muy pocos sabrán, Google ha integrado un filtro estacional en su sistema. Así, al buscar «turkey» en invierno, primavera o verano, las listas de resultados muestran información sobre Turquía. En cambio, si se pregunta en otoño, en los primeros puestos aparecen recetas para cocinar el pavo del día de Acción de Gracias.

La web semántica: Google 2.0

Las nuevas tecnologías de búsqueda son, sin duda, innovadoras, ¿pero se trata realmente de un paso previo para la búsqueda semántica en la Red?

«Diría que bajo el paraguas de Google ya hay una gran cantidad de tecnologías semánticas», afirmó el ingeniero de software y jefe del equipo de spam de Google, Matt Cutts,^[3] en una entrevista con la plataforma Readwriteweb en la primavera de 2007. En la era de la web semántica, los buscadores ya no son motores, sino asistentes de búsqueda. La web semántica se caracteriza por estar personalizada. Sólo proporciona buenos resultados cuando el contexto es reconocible y se puede acceder a un fondo de datos del usuario.

Cuando dos internautas plantean la misma pregunta, la respuesta que desean no tiene por qué ser la misma. Para suministrar la respuesta perfecta a cada usuario se necesita una determinada información sobre él. Cuanto más se sepa sobre el usuario, más exacta será la información que se le ofrecerá y mejores serán las listas de resultados. Así, el filtro estacional sólo mejoraría una pequeña parte de las consultas.

PageRank ya tiene diez años (toda una eternidad en el sector de las TI) y Google sabe que se necesita un sistema nuevo para adaptar la búsqueda en la Red a la nueva situación.

En febrero de 2007 se hizo público que Google había registrado cinco nuevas patentes que versaban sobre «motores de búsqueda programables». Todas ellas, creadas por el ingeniero de Google y antiguo científico de Apple y Netscape, Ramanathan V. Guha, hablan de un «programmable search engjne» (PSE) que podría sustituir algún día a PageRank.

El objetivo del motor de búsqueda programable es ofrecer la respuesta correcta a una pregunta, algo que muchos consideran imposible. En las varias y farragosas páginas de la descripción de las patentes, Guha explica el funcionamiento del PSE tomando como ejemplo una «Canon Digital Rebel». Un usuario de Internet que introduce estas palabras en el cuadro de búsqueda puede tener distintos motivos para hacerlo: quizás quiere comprar una cámara, o puede ser que ya tenga una y busque foros sobre su uso o bien un centro de servicio posventa. El motor de búsqueda programable busca contextos en tiempo real en los sistemas recurriendo también a resultados de búsquedas anteriores y consultas a otras bases de datos. Así, en la web semántica también se podrían consultar recursos externos a Google, ya que la Red es una inmensa y única base de datos. Todo este proceso duraría fracciones de segundo y proporcionaría un resultado de búsqueda perfecto. El robot de búsqueda ya no examinaría la Red ni indexaría textos, sino que leería los datos y repartiría las relaciones. «El PSE permite a Google crear su propia ontología de la información, ya que utiliza los datos marcados de otras fuentes», explica el analista Stephen Arnold. «Cuantos más contenidos conozca Google, más inteligente será el motor de búsqueda 2.0.»

La patente del PSE deja claro que Google está pensando en cómo mantener su hegemonía en el campo de las búsquedas, y es que saber (sobre el usuario) es poder. Si un motor de búsqueda sabe qué ha buscado un internauta en el pasado y guarda esta información, le podrá ofrecer mejores resultados que a un desconocido, y como son muy pocos los usuarios de Internet que, al hacer una consulta, introducen términos relacionados entre sí en el cuadro de búsqueda, el conocimiento sobre el usuario vale su peso en oro.

El resto de competidores podría copiar el sistema de búsqueda contextual en el que se basa el PSE de Google, pero los analistas están convencidos de que sólo la empresa de Mountain View dispone de la red adecuada y puede doblegar a los otros sistemas.

El futuro de los buscadores está en la búsqueda semántica. Así lo creen muchas firmas que se están dedicando a ella con esfuerzo y meticulosidad, como Haika o Powerset. Y si algún día una de estas empresas desaparece del mapa (lo cual es perfectamente posible), es porque Google la habrá comprado.