Articles acceptés pour présentation à Airweb 2009.

avril, 16, 2009
Sylvain

Je vous ai déjà parlé du workshop Airweb 2009, événement satellite de la grosse conférence sur le web WWW09, événement consacré à la lutte contre les méchants du web… Le workshop commence dans quelques jours à Madrid, et sur le web vous pouvez trouver la liste des articles acceptés, ainsi que les articles eux mêmes (c’est ici que ça se trouve).

Pour vous, en exclusivité top mondiale top moumoute, voici la liste et un résumé très rapide du contenu (une analyse des plus intéressants selon moi à venir bientôt dans ces pages).

Looking into the Past to Better Classify Web Spam

Na Dai, Brian D. Davison et Xiaoguang Qi

L’idée de cet article est de mettre au point des classifiers pour détecter le spam qui sont basés sur les aspects temporels du contenu (i.e. comment le contenu a évolué dans le temps). L’article prétend une amélioration de la classification de 30%.

A Study of Link Farm Distribution and Evolution Using a Time Series of Web Snapshots
Young-joo Chung, Masashi Toyoda et Masaru Kitsuregawa

Un article sur l’évolution des grosses fermes de liens, sur l’apparition des nouvelles, etc. Il paraît que c’est un prérequis pour mettre au point des techniques efficaces de détection… J’en doute, mais pourquoi pas ?

Web Spam Filtering in Internet Archives
Miklós Erdélyi, András A. Benczúr, Julien Masanes et Dávid Siklósi

Article sur la problématique du filtrage du spam dans le cas particulier des archives web, cas très différent de ce que vit un moteur de recherche, qui doit avoir des solutions dynamiques et parfois spécifiques à une requête.

Web Spam Identification Through Language Model Analysis
Juan Martinez-Romo et Lourdes Araujo

Utilisation d’information sémantique pour détecter le spam, c’est sans doute à lire car si ça marche, c’est une première !

An Empirical Study on Selective Sampling in Active Learning for Splog Detection
Taichi Katayama, Takehito Utsuro, Yuuki Sato, Takayuki Yoshinaka, Yasuhide Kawada and Tomohiro Fukuhara

Comment utiliser des SVM pour trouver les splogs sans intervention humaine ? J’en connais qui vont faire la gueule si ça marche !

Linked Latent Dirichlet Allocation in Web Spam Filtering
István Bíró, Dávid Siklósi, Jácint Szabó and András Benczúr

La Latent Dirichlet allocation (LDA) (Blei, Ng, Jordan 2003) est un modèle génératif du langage, on rejoint donc la problématique de la sémantique et du spam. L’article annonce 8% d’amélioration sur C4.5 (utilisé par Microsoft je crois).

Social Spam Detection
Benjamin Markines, Ciro Cattuto and Filippo Menczer

98% de détection des spammeurs dans les réseaux sociaux, voilà ce que vends cet article… Scoopeo va pouvoir revivre alors ?

Tag Spam Creates Large Non-Giant Connected Components
Nicolas Neubauer, Robert Wetzker and Klaus Obermayer

Les spammeurs font, malgré eux, apparaître des structures particulières sur le web, c’est ce que montre cet article. Et qui dit trace particulière dit détection plus facile, non ?

Nullification Test Collections for Web Spam and SEO
Tim Jones, David Hawking, Ramesh Sankaranarayana and Nick Craswell

Web Spam Challenge Proposal for Filtering in Archives
András A. Benczúr, Miklós Erdélyi, Julien Masanes and Dávid Siklósi

Ces deux articles sont sur la création et la correction des bases de test utilisées par la communauté de recherche dans le domaine de la détection de spam. Le seul intérêt pour les SEO est de savoir sur quoi travaille « l’adversaire », sinon cela reste peu utilisable.

Picture: courtesy of Abby Blank