bosch

Descubriendo el misterio del secreto del algoritmo del PageRank de Google

Escrito por: bosch

Si te gusta lo que ves y te parece interesante, suscribete por email o por RSS. ¡Gracias por tu visita!.

Es difícil definir un objetivo concreto para este experimento ya que pienso que se pueden sacar muchísimas conclusiones del escenario propuesto. De todas maneras el objetivo inicial era probar que Google cuenta más de un enlace en la misma página a otra página para el algoritmo del PageRank. Quizás es un objetivo un poco ambicioso, pero ¡que diablos! Vamos a intentarlo, ¿no?

Otras preguntas que se pueden llegar a contestar con este experimento:  ¿Google cuenta más de un enlace para determinar la temática de una página Web?, ¿Google tiene en cuenta el número de enlaces que va de una página a otra?,…

Base teórica

¿Qué sabemos ciertamente del algoritmo de PageRank de Google y del funcionamiento del PageRank?. El PageRank es un algoritmo que valora la importancia de una página web a partir de una ecuación con más de 500 millones de variables y 2.000 millones de términos. Es por ello que en este experimento se intenta simplificar lo máximo posible un escenario para poder evaluar con el mínimo de variables posibles y hallar una o varias respuestas, conclusiones y/o hipótesis un poco concretas.

Básicamente el PageRank interpreta que un enlace de la página A a la página B como un voto de A hacia B. La importancia de B será evaluada en función al número total de votos obtenido. Pero la gracia del asunto está en que no todos los votos valen lo mismo y es que dependiendo de la importancia de la página A el voto tendrá más o menos valor.

Vamos un poco más lejos. Google publicó hace mucho tiempo como funcionaba el algoritmo del PageRank. En este se decía que cada página tiene una cantidad limitada de "link juice" (fuerza, importancia,.. llámale como quieras ;) ). La página reparte este link juice entre las paginas a las que enlaza. Según el formula de PageRank publicada, el orden  en que estén dispuestos los enlaces no afecta. Lo que sí importa es el total de enlaces. Me explico. Si el número de enlaces en una pagina supera los 100, Google puede decidir no seguirlos todos.

Es más, en un experimento anterior que realicé se demostró que no solamente es importante el enlace, sino también el texto del enlace.  En ese experimento una página que no contenía una palabra clave se indexó por esta palabra clave simplemente por el hecho de que otra página la enlazaba con esta. Google no tiene en cuenta el orden de los enlaces.

Con todo esto a mi se me plantean un montón de dudas, ¿a ti no? Es por ello que en base a estas consideraciones teóricas se ha diseñado este experimento.

Escenario

En este experimento vamos a "jugar" con los enlaces, hay un página origen (A) que será la página que contenga los enlaces y 6 páginas destino (B1, B2,.. B6) que recibirán enlaces de la página A. Explicaré la disposición de los enlaces con un esquema para que resulte más sencillo, una imagen vale más que mil palabras.

Tal y como vemos en la figura existe una página origen A que contiene un enlace hacia la página B1, dos enlaces hacia la página B2, tres enlaces hacia B3,... y así consecutivamente hasta 6 enlaces a B6. Todos estos enlaces tendrán exactamente el mismo anchor text y al igual que los experimentos anteriores vamos a elegir una palabra clave para estos anchor text que en el momento de realizar el experimento no esté presente en ninguna de las páginas indexadas por Google y de esta manera facilitar la lectura de los resultados. Para ello se inventa 1 palabra (o más bien conjunto de letras) y se busca en Google, si no aparece ningún resultado, se considera como válida para el experimento.

Evaluación

La evaluación de este experimento es simple, buscar la palabra clave en Google:

Conclusiones

Sinceramente, el resultado que esperaba era el siguiente: A, B6, B5, B4, B3, B2 y B1. Pues no, el resultado es toda una sorpresa para mi, 4, 3, 5, 2, 1 y 6. Ningún tipo de orden. En conclusión, Google considera que todas las páginas que enlaza a.php tienen la misma importancia. Es decir, no importa el número de enlaces que van de una página a otra, ya puede ser 1 como puede ser 6 que su valor es el mismo, sólo un voto para el PageRank.

Tal y como se ha expuesto en la base teórica el orden de los enlaces no ha determinado el orden de los resultados ya que si el orden de los enlaces hubiera sido el factor determinante para el orden de los resultados, los resultados se hubieran mostrado de la siguiente manera: B1, B2, B3, B4, B5 y B6.

Entonces, si ni el orden de los enlaces, ni el número de enlaces determinan el orden de los resultados, ¿qué pasa con este orden? ¿el algoritmo de Google tiene algún factor aleatorio? ¿Algún "random"? Por favor, si se te ocurre algo explícamelo. :)

[Experimento 4: Descubriendo el misterio del secreto del algoritmo del PageRank de Google]
Compartir este artículo:
  • del.icio.us
  • Google
  • Meneame
  • Technorati
  • BlogMemes Sp

Escribe un comentario

Entradas relacionadas:

  1. Resolviendo dudas sobre el orden de los enlaces y Google ¿Cómo podemos saber si Google cuenta más de un enlace...
  2. Estudio sobre la densidad y la relevancia de las palabras clave y la importancia de las zonas clave en el algoritmo de Google ¿Cómo Google da importancia a la posición de las palabras...
  3. El algoritmo del PageRank de Google y su funcionamiento El 29 de enero del 1998 Larry Page y Sergey...
  4. Redistribuir el PageRank por un sitio web Hace algún tiempo que he venido observando que hay sitios...
  5. Google no tiene en cuenta el orden de los enlaces En este experimento ponemos a prueba la teoría del primer...


kubrick | empresas de posicionamiento web | consultoria posicionamiento web | precio posicionamiento web | primeros puestos en buscadores | marketing tienda online | internet marketing online | servicios de posicionamiento web | empresas de alta en buscadores | administracion adwords | agencia de notas de prensa | campañas de email marketing | agencias de publicidad en internet | garantia de posicionamiento en buscadores | directorio |