SpotRank : un Digg-like robuste aux manipulations ?

juillet, 22, 2009
Sylvain

C’est les vacances, et pendant les vacances le blog est calme, je vous mets quand même ici une copie du mini communiqué pour la sortie de SpotRank :

Spotrank.fr est un site web collaboratif de type Digg-like qui a la particularité d’utiliser un algorithme antispam élaboré par des chercheurs afin de proposer les meilleurs résultats possibles.

Les sites web sociaux fonctionnent en agrégeant du contenu fourni par les utilisateurs. Ce contenu est généralement filtré, que ce soit par une méthode de filtrage collaboratif (type recommandation par Netflix), ou par une méthode de filtrage social.
Digg est sans doute le meilleur exemple d’un tel site, mais la France n’est pas en reste avec les fameux Scoopeo, Fuzz et Wikio. Ces sites utilisent un filtrage social : plus une news reçoit de votes positifs des utilisateurs, plus elle apparait en première position sur ces mêmes sites.

Le problème de ces sites est leur manque de robustesse face aux manipulations. En effet, ils fournissent un tel trafic aux sites liés qu’il est intéressant d’y apparaitre d’un point de vue « business ».Un utilisateur peut ainsi proposer un nombre abusif de news, peut voter un nombre abusif de fois, et surtout peut s’associer avec d’autres pour promouvoir honteusement ses news (et celles de ses petits camarades).

Dans le cadre de leur travaux au Laboratoire de Recherche en Informatique de l’Université Paris-Sud, et en collaboration avec Guillaume Peyronnet du site www.krinein.com, Thomas Largillier et Sylvain Peyronnet ont mis au point un algorithme qui permet de detecter les manipulations dans les votes des sites web sociaux.

Cet algorithme, qui se nomme le SpotRank, est actuellement en phase de test sur le site http://www.spotrank.fr

Cet algorithme est basé sur quatre notions fondamentales :

1. La décorrélation entre un vote et sa valeur

Dans la vie, et c’est heureux pour l’intégrité de notre démocratie, un vote est égal à une voix, et tous les votes ont donc la même valeur. Sur Spotrank ce n’est pas le cas. Si un utilisateur est un tricheur identifié alors son vote aura moins de valeur que celui des autres utilisateurs. Il aura cependant une valeur non nulle (et qui peut évoluer à la hausse ou la baisse) car le comportement de triche peut ne pas être systématique.

La valeur d’un vote est appelé score chez nous, et il est visible sous forme d’un pourcentage à coté du spot.

2. L’analyse fréquentielle

Vous trouvez ça bizarre un spot qui obtient 25 votes en 15 secondes ? Vous trouvez ça bizarre un utilisateur qui vote 254 fois par minute ? Vous trouvez ça bizarre un utilisateur qui vote une fois par heure, 24 fois par jour, 365 fois par an ? Nous aussi, et c’est pour ça que nous avons une batterie de tests de « conformité » des votes, pour repérer les tricheurs.

3. La pertinence des spots et des utilisateurs

Chaque utilisateur et chaque spot se voient attribué une pertinence. Les deux notions sont complémentaires : un spot est pertinent car des utilisateurs pertinents votent pour lui, et les utilisateurs sont pertinents car ils votent surtout pour des spots pertinents.

4. La détection des « cabales »

Selon Wikipédia, une cabale est « une forme de complot ourdi par un groupe de personnes unies autour d’un projet secret visant à conspirer pour le succès de leurs opinions et de leurs intérêts au sein d’un État ou d’une communauté donnée. »

Spotrank contient une méthode de détection des groupes d’utilisateurs qui se soutiennent de manière trop marquée pour l’obtention du passage d’un spot en une. Plus un tel groupe est de taille importante, moins les votes de ses membres apportent de l’eau au moulin du score…

Picture: courtesy of Abby Blank