Le pagerank…
Je vais faire une petite série de billets qui reprendront en grande partie mon intervention au SEO CAMPUS 2009. Et le commencement sera donc à propos de ce qu’est le PageRank.
Selon Wikipedia, le PageRank est « le système de classement des pages Web utilisé par le moteur de recherche Google pour déterminer l’ordre et la pertinence des liens dans les résultats de recherche qu’il fournit. De nos jours le PageRank n’est qu’un indice parmi tant d’autres dans l’algorithme qui permet de classer les pages internet dans les résultats de recherche de Google. Ce système a été inventé par Larry Page, cofondateur de Google. Ce mot est une marque déposée. »
Nous allons maintenant parler un peu technique.
PageRank : première tentative de définition
Imaginons le PageRank comme un fluide : il se transmet (dans une certaine proportion) d’une page à une autre proportionnellement aux nombres de liens sortants de la page fournisseuse. Le dessin suivant explicite cela :
Ainsi la page v2 donne une partie de son pagerank à la page u, alors que la page v3 donne une partie de son pagerank divisée par 2 car elle a deux liens sortants. Dans ce cadre calculer le pagerank revient à calculer ces transmissions successives et à s’arrêter lorsqu’il y a stabilisation, c’est à dire les valeurs des pagerank des pages ne sont plus modifiées par les nouvelles transmissions.
Est ce que cette stabilisation arrive ? en fait la théorie dit que non si on ne prend en compte que les transmissions entre pages. Pour garantir la stabilisation (on appelle ça la convergence) on va rajouter une quantité supplémentaire au pagerank de chaque page, cette quantité est proportionnelle à (1/N) où N est le nombre de pages dans l’index du moteur de recherche.
Au final, on peu écrire une formule qui résume tout cela :
Que nous dit cette formule, qu’à l’origine on donne à chaque page un pagerank égal à (1/N) puis qu’ensuite les rêgles de transmission contribue à hauteur d’une proportion c au pagerank de la page et que le facteur (1/N) contribue à hauteur d’une proportion (1-c). c est appellé Damping Factor. cela signifie donc deux choses, qu’il faut retenir : le pagerank vaut de 0 à 1 (exclus l’un et l’autre) et la somme de tous les pagerank vaut 1.
Relation au PageRank de la Toolbar ?
Normalement à ce stade vous devez être interloqué car pour vous le pagerank c’est cette petite barre verte qui vaut de 0 à 10 sur la toolbar de votre navigateur. En fait, ce Toolbar PageRank (je le note TPR) est un indicateurà vocaion marketing mis au point par Google et qui consiste en la crétion de classes de pages selon les valeurs de leur pagerank. Plus précisément, on va utiliser une échelle logarithmique pour classer les pages.
C’est à dire qu’on va mettre l’écrasante majorité des pages à TPR=1, puis l’écrasante majorité de celles non encore classées à TPR=2, etc.
Le dessin précédent résume cette idée, sauf que pour la simplicité de lecture j’ai appliqué une rêgle 80/20.
Pagerank : une définition plus utile
Je vais maintenant donner une définition qui sera plus pratique pour le SEO car elle donne une intuition qui permet de faire du PR sculpting à la main (c’est à dire sans trop de calculs).
Imaginons le comportement suivant pour un internaute (on l’appelle dans ce cas le surfeur aléatoire) :
- Tirer une page web au hasard
- Tirer un nombre p entre 0 et 1
- Si p > c alors choisir une nouvelle page au hasard
- si p < c choisir au hasard un lien de la page web et aller à la
page linkée par ce lien (si pas de lien : goto 1)
La beauté de la chose est que maintenant on a : La probabilité que cet internaute se trouve en une page donnée à un moment donné est égale au PageRank de cette page.
Ainsi, si la probabilité de présence du surfeur aléatoire est forte alors le PageRank est fort ! L’intuition pour améliorer le pagerank d’un site sera donc de créer des circuits de liens qui maintiennent le surfeur aléatoire là où vous le désirez…