Evaluation de SpotRank (comparaison avec deux compétiteurs)
Je vous ai déjà parlé de spotrank.fr, le site web collaboratif de type Digg-like qui a la particularité d’utiliser un algorithme antispam que nous avons mis au point. Quand je dis nous je parle de la petite équipe composée de Thomas Largillier, Guillaume Peyronnet et moi-même.
Les sites web sociaux fonctionnent en agrégeant du contenu fourni par les utilisateurs. Ce contenu est généralement filtré, que ce soit par une méthode de filtrage collaboratif (type recommandation par Netflix), ou par une méthode de filtrage social.
Digg est sans doute le meilleur exemple d’un tel site, mais la France n’est pas en reste avec les fameux Scoopeo, Fuzz, bluegger, digg-France, blogasty, Wikio et bien d’autres. Ces sites utilisent un filtrage social : plus une news reçoit de votes positifs des utilisateurs, plus elle apparait en première position sur ces mêmes sites.
Le problème est le manque de robustesse face aux manipulations. En effet, ils fournissent un tel trafic aux sites liés qu’il est intéressant d’y apparaitre d’un point de vue « business ».Un utilisateur peut ainsi proposer un nombre abusif de news, peut voter un nombre abusif de fois, et surtout peut s’associer avec d’autres pour promouvoir honteusement ses news (et celles de ses petits camarades). Ce n’est pas à mes lecteurs que je vais l’apprendre, mais il y a des cabales (groupes de gens qui se soutiennent pour les votes), des bots, du spam etc.
Nous avons donc mis au point l’algo SpotRank, qui est basé sur quatre notions clés : la décorrélation entre un vote et sa valeur, l’analyse fréquentielle des votes, la pertinence des spots et utilisateurs et enfin la détection des cabales. Nous venons de finir la rédaction d’un article scientifique qui je l’espère sera publique le plus vite possible, mais en attendant je vous livre une courbe édifiante sur l’évaluation humaine que nous avons faite.
Voici ce qui était demandé :
L’évaluation est réalisé de la manière suivante : l’évaluateur reçoit l’URL d’un site qui propose 15 URLS différentes. Il est demandé à ce dernier de visiter (rapidement ou en détail, au choix) chaque URL et de choisir une réponse parmi les quatre suivantes pour chaque URL :
– OUI : la page correspondant à l’URL mérite d’être classé comme une page de qualité sur un site communautaire
– NON : la page correspondant à l’URL mérite d’être classé comme une page de faible qualité : ou bien le contenu est inintéressant, ou bien la page semble devoir bénéficier d’une manipulation des votes pour être bien classé (la page est intéressante mais dans un domaine trop peu populaire)
– JNSP : réponse dans le cas où l’évaluateur ne sait pas répondre
– ERROR : la page n’est pas accessible au moment de l’évaluation
Durant la durée de l’évaluation (20 à 40 min maximum), il est demandé à l’évaluateur de ne pas chercher à savoir quel site communautaire a classé (ou non) chaque URL.
En fait sur les 15 URLs proposées, 5 étaient celles du top 5 de SpotRank, les 10 autres venaient de deux autres digg-like francophones que nous appellerons comp1 et comp2 (compétiteur 1 et 2). Comp1 et comp2 sont deux acteurs majeurs des digg-like français, que nous ne nommerons pas pour d’évidentes raisons.
Les résultats obtenus sont les suivants (ce sont des résultats partiels) :
La méthode de filtrage de SpotRank semble donc porter ces fruits…