Attributs des liens et moteurs de recherche
Il y a quelques temps, Lionel (l’un des yooda boys), me demandait si il existait des études dans la littérature scientifique sur l’impact des ancres des liens sur le positionnement dans le classement donné par les moteurs de recherche. On peut élargir cette question à l’utilisation de tous les attributs sur les liens.
Autant être clair tout de suite, il n’y a quasiment aucun article sur ce sujet. Sans doute plusieurs raisons à ça : les premiers à mener de telles recherche sont les équipes des moteurs, qui n’ont aucun intérêt à communiquer la dessus, vu que ce doit être ces petits filtres supplémentaires qui différencient un moteur par rapport à un autre. Par ailleurs, les chercheurs académiques ont peu d’intérêt dans cette histoire : au mieux ils proposeront des aménagements de méthodes connues (comme le pagerank) et il n’y aura donc pas émergence d’une technologie de rupture.
Bref, j’ai cependant trouvé 4 articles qui peuvent intéresser la communauté SEO :
[1]. Nick Craswell, David Hawking, Stephen E. Robertson: Effective Site Finding Using Link Anchor Information. SIGIR 2001: 250-257
[2]. Thijs Westerveld, Wessel Kraaij, Djoerd Hiemstra: Retrieving Web Pages Using Content, Links, URLs and Anchors. TREC 2001
[3]. Reiner Kraft, Jason Y. Zien: Mining anchor text for query refinement. WWW 2004:666-674
[4]. Ricardo A. Baeza-Yates, Emilio Davis: Web page ranking using link attributes. WWW (Alternate Track Papers & Posters) 2004: 328-329
La question originale qui m’était posée était sur la prise en compte du texte de l’ancre dans le champ sémantique de la page cible (en gros ce que l’on fait pour un google bombing). Je pense que les articles qui répondent le mieux sont le [1] et le [3], ainsi que le [2] dans une moindre mesure.
Commençons donc par le [2] qui se consacre au repérage de l’entry page d’un site (=la homepage). Il est mentionné explicitement qu’un page peut être représentée par deux documents textuels : l’un qui contient le texte de la page, et l’autre qui contient l’intégralité des textes des ancres des liens qui pointent vers la page. Ainsi la page est également référencée sur le contenu des ancres… L’article [1] propose la même solution pour la détection de site. L’article [3] se consacre lui au raffinage de requête selon les ancres des liens qui pointent vers les pages. Ainsi si on fait une recherche sur « jaguar », la méthode va proposer des requêtes plus pointues basées sur les ancres des liens qui pointent vers les pages qui sont pertinentes pour « jaguar ». Par exemple « jaguar voiture », « jaguar apple » et « jaguar animal ». Dans l’article on trouve des résultats de satisfaction obtenue au cours d’une expérience qui annonce que dans 76% des cas les requêtes raffinées ont permis d’améliorer les résultats pour l’utilisateur.
On notera que l’intérêt principal d’utiliser les ancres intensivement est calculatoire : le texte des ancres représente une faible proportion du texte d’une page, ce qui permettra de manipuler un volume de données moindre, et donc d’économiser de la puissance de stockage/calcul ou bien de répondre plus vite aux requêtes.
Enfin, le dernier article dont je souhaite parler est différent, il s’agit du [4], qui propose une version modifié du pagerank :
q est la probabilité de téléportation vers une page quelconque, T est le nombre de page dans l’index, R(i) est la valeur du pagerank pondéré de la page i. Tout ça c’est comme d’habitude… La différence avec le pagerank c’est le coefficient W(j,i), qui est le poids d’un lien de j vers i.
Ce poids est décomposé de la façon suivante :
- L(j,i)=1 si il existe un lien, 0 sinon
- T(j,i) a une valeur qui dépend du tag définissant le lien
- AL(j,i) a pour valeur la longueur de l’ancre divisée par une estimation de la longueur moyenne d’une ancre
- RP(j,i) est une pondération qui dépend de la position du lien dans la page
Avec tout ça, on voit qu’on peut pénaliser (ou avantager) des pages qui ont des liens « discrets » (en utilisant T(j,i)), des liens en footer (avec RP) ou avec des ancres courtes ou très longues (avec AL).
Voilà, en espérant que tout cela répondra aux questions des uns et des autres…