Descubriendo el misterio del secreto del algoritmo del PageRank de Google
Escrito por: bosch
Si te gusta lo que ves y te parece interesante, suscribete por email o por RSS. ¡Gracias por tu visita!.
Es difícil definir un objetivo concreto para este experimento ya que pienso que se pueden sacar muchísimas conclusiones del escenario propuesto. De todas maneras el objetivo inicial era probar que Google cuenta más de un enlace en la misma página a otra página para el algoritmo del PageRank. Quizás es un objetivo un poco ambicioso, pero ¡que diablos! Vamos a intentarlo, ¿no?
Otras preguntas que se pueden llegar a contestar con este experimento: ¿Google cuenta más de un enlace para determinar la temática de una página Web?, ¿Google tiene en cuenta el número de enlaces que va de una página a otra?,…
Base teórica
¿Qué sabemos ciertamente del algoritmo de PageRank de Google y del funcionamiento del PageRank?. El PageRank es un algoritmo que valora la importancia de una página web a partir de una ecuación con más de 500 millones de variables y 2.000 millones de términos. Es por ello que en este experimento se intenta simplificar lo máximo posible un escenario para poder evaluar con el mínimo de variables posibles y hallar una o varias respuestas, conclusiones y/o hipótesis un poco concretas.
Básicamente el PageRank interpreta que un enlace de la página A a la página B como un voto de A hacia B. La importancia de B será evaluada en función al número total de votos obtenido. Pero la gracia del asunto está en que no todos los votos valen lo mismo y es que dependiendo de la importancia de la página A el voto tendrá más o menos valor.
Vamos un poco más lejos. Google publicó hace mucho tiempo como funcionaba el algoritmo del PageRank. En este se decía que cada página tiene una cantidad limitada de "link juice" (fuerza, importancia,.. llámale como quieras
). La página reparte este link juice entre las paginas a las que enlaza. Según el formula de PageRank publicada, el orden en que estén dispuestos los enlaces no afecta. Lo que sí importa es el total de enlaces. Me explico. Si el número de enlaces en una pagina supera los 100, Google puede decidir no seguirlos todos.
Es más, en un experimento anterior que realicé se demostró que no solamente es importante el enlace, sino también el texto del enlace. En ese experimento una página que no contenía una palabra clave se indexó por esta palabra clave simplemente por el hecho de que otra página la enlazaba con esta. Google no tiene en cuenta el orden de los enlaces.
Con todo esto a mi se me plantean un montón de dudas, ¿a ti no? Es por ello que en base a estas consideraciones teóricas se ha diseñado este experimento.
Escenario
En este experimento vamos a "jugar" con los enlaces, hay un página origen (A) que será la página que contenga los enlaces y 6 páginas destino (B1, B2,.. B6) que recibirán enlaces de la página A. Explicaré la disposición de los enlaces con un esquema para que resulte más sencillo, una imagen vale más que mil palabras.
Tal y como vemos en la figura existe una página origen A que contiene un enlace hacia la página B1, dos enlaces hacia la página B2, tres enlaces hacia B3,... y así consecutivamente hasta 6 enlaces a B6. Todos estos enlaces tendrán exactamente el mismo anchor text y al igual que los experimentos anteriores vamos a elegir una palabra clave para estos anchor text que en el momento de realizar el experimento no esté presente en ninguna de las páginas indexadas por Google y de esta manera facilitar la lectura de los resultados. Para ello se inventa 1 palabra (o más bien conjunto de letras) y se busca en Google, si no aparece ningún resultado, se considera como válida para el experimento.
Evaluación
La evaluación de este experimento es simple, buscar la palabra clave en Google:
Conclusiones
Sinceramente, el resultado que esperaba era el siguiente: A, B6, B5, B4, B3, B2 y B1. Pues no, el resultado es toda una sorpresa para mi, 4, 3, 5, 2, 1 y 6. Ningún tipo de orden. En conclusión, Google considera que todas las páginas que enlaza a.php tienen la misma importancia. Es decir, no importa el número de enlaces que van de una página a otra, ya puede ser 1 como puede ser 6 que su valor es el mismo, sólo un voto para el PageRank.
Tal y como se ha expuesto en la base teórica el orden de los enlaces no ha determinado el orden de los resultados ya que si el orden de los enlaces hubiera sido el factor determinante para el orden de los resultados, los resultados se hubieran mostrado de la siguiente manera: B1, B2, B3, B4, B5 y B6.
Entonces, si ni el orden de los enlaces, ni el número de enlaces determinan el orden de los resultados, ¿qué pasa con este orden? ¿el algoritmo de Google tiene algún factor aleatorio? ¿Algún "random"? Por favor, si se te ocurre algo explícamelo.






