El algoritmo de Google: el secreto de su dominio del Internet

Medios y Tecnología

Por: Luis Alberto Hara - 02/26/2010

¿Cómo funciona el misterioso algoritmo que ha hecho de Google la empresa más sobresaliente de nuestra época?

En la actualidad, más que la fórmula para hacer la Coca-Cola, la fómula secreta más exitosa en el mundo de las grandes corporaciones es el algoritmo de Google. Un algoritmo que no sólo significa miles de millones de dólares, significa también una revolución en la forma en la que nos relacionamos con la información y la forma en la que obtenemos conocimientos, encontranado lo que buscamos casi instánteaneamente. Google se ha convertido en el espacio de nuesta memoria colectiva.

Algunos tal vez no lo recuerden, pero antes de que Google afinara su algoritmo encontrar algo en el Internet no era tan fácil. El hecho de que en la actualidad sea tan fácil (ya ni siquiera tenemos que saber como se escribe lo que queremos encontrar ) no sólo ha contribuido a la consolidación de Google, sino del mismo Internet. De la misma forma que Google mapea la Tierra y nos permite navegar virtualmente por su enorme territorio, antes hizo accesible (del caos digital primodrial) una carretera lógica y expédita para acceder a la información dentro de cuasi infinito del Internet .

En el intento de descubrir los secretos del algoritmo de Google, la revistaWired nos ofrece un muy buen artículo, quizá uno de las incursiones más intímas al horno de alquimia digital donde se cocina el algoritmo de Google. Hacemos una sintesis de los más interesante.

Una de las cosas que distingue a Google es su enorme poder computacional para indexar la red, pero lo que en un principio lo hizo sobresalir de buscadores como Altavista o Yahoo, fue su algoritmo, particularmente el Page Rank.

El Page Rank de Google fue inventado por un estudiante de la Universidad de Stanford, Larry Page, cofundador de Google, en 1997. La innovación en este sistema fue calificar las páginas básandose en el número y en la importancia de los links que apuntan a esa página. O en otras palabras: usar la inteligencia colectiva de la Red para determinar que sitios son más relevantes.

Sin embargo, el jefe de search de Google, Udi Manber, habla de como el Page Rank no es todo: "Las personas se fijan en el Page Rank porque es reconocible, pero hay muchas otras cosas que han mejorado su relevancia". Estas "otra cosas" son conocidas como "señales", muchas de las cuales no son reveladas. La "interpretación" de estas señales ha generado todo una industria que ofrece posicionar páginas entre los primero lugares de los resultados de Google: el SEO, o search engine optimization. Incluso se ha dividido entr el SEO de sombrero blanco (el que se basa en lo que Google da a conocer: básicamente construir un sitio amigable para las arañas robóticas del buscador y construir links) y el SEO de sombrero negro (el que ofrece formas de burlar a Google y sembrar links subrepticiamente).

Aquellos que dicen conocer algunos de los secretos del algoritmo de Google pueden ganar mucho dinero. Es por esto, y para estar un paso adelante de su competencia que Google (con su 65% del mercado) modifica constantemente su algoritmo, el cual podría decirse, como todo Google (que mantiene sus proyecto en eternos estado beta) es una obra en construcción.

Si bien el Page Rank podría considerarse como una especie de democracia elctrónica: la democracia de millones de personas decidiendo que linkear, Google ha descubierto otra democracia (a Google, cuyo mantra es "No ser malo", le gusta hablar de democarcia) en sí mismo: la democracia de los datos que generan las millones de personas que buscan en su motor de búsqueda. Los resultados a los que hacen click, las palabras que reemplazan cuando los resultados no les satisfacen, cómo sus búsquedas encajan con su ubicación física, etc., son parte de estas "señales", y son tomadas en cuenta para perfeccionar el algoritmo. (Google también toma en cuenta el historial de búsquedas de una persona, si ésta ha ingresado a su cuenta de mail, para filtrar los resultados y colgar anuncios. Lo cual a veces genera el sobresalto de pensar que nos están leyendo la mente).

En algún momento Google se tuvo que enfrentar al problema de la semántica. Incorporando las teorías del filósofo Ludwig Wittgenstein sobre cómo las palabras son definidas por su contexto, en el año 2002 Google resolvió el problema y aprendió que cuando alguien busca "little rock", lo más probable es que no se refiera a una roca pequeña, sino a la capital de Arkansas. Después de analizar que palabras estabán cerca de si en miles de millones de páginas, Google aprendió que "hot dog" tenía que ver con "bread" (pan) "mustard" (mostaza) o "baseball" y no con unos canes calientes (lo cual sería más bien, como Google sabe, "hot bitches").

"El santo grial del search es entender lo que los usuarios quieren. No estas igualando palabras, lo que en realidad igualas son significados", dice Amit Singhal, quien reescribió el algoritmo de Google en el 2001.

Google, y quizá eso es justo lo que lo distingue, se caracteriza por ser insaciable y siempre está buscando perfeccionar su algoritmo así como desarrollar nuevas innovaciones en otro ámbitos (incluso tiene su feria interna anual de "Crazy Search Ideas"). Esto hace que se realicen constantemente experimentos sobre la marcha, y ya que Google constantemente revisa sus resultados y los analiza, lo más probable es que con cada búsqueda que realizas estás siendo una especie de rata de laboratorio.

Tan sólo en los últimos seis Google ha incorporado 200 mejorías, algunas de las cuales parecen imitar a sus más cercanos competidores (Bing, Facebook, Twitter, etc.), aunque Google dice que esto es pura coincidencia.

Recientemente influído por Twitter, Google ha incorporado resultados en tiempo real (y ha empezado a indexar páginas de Facebook), incluyendo tweets, a los cuales aplica una especie de Page Rank básandose en retweets y en cuántas personas siguen a la persona que emite el tweet.

Otro proyecto nuevo, diseñado para su teléfono móvil, es Goggles, el cual permite realizar búsquedas ingresando imágenes.

Por el momento y hasta que no se logre generar una inteligencia artificial, lo más cerca para simular esa inteligencia es la capacidad monumental de procesar datos y cotejarlos para formar patrones informáticos. En el futuro se dirá: antes de que las máquinas inteligentes tomaran control del mundo, estuvo Google.

Vía Wired