Un google news thématique pour Twitter ?

avril, 18, 2010
Sylvain

J’ai déjà parlé ici du blog life analytics de Themos Kalafatis. Themos y parle de Twitter et de data mining et il y a souvent des choses intéressantes à retenir de la lecture de ses écrits. Aujourd’hui je vais vous parler d’un de ses billets qui porte sur la détection de la nouveauté sur Twitter.

le problème est simple : comment faire pour detecter un hot topic dans un domaine particulier ? Question simple mais réponse difficile à donner. Tout d’abord, il faut bien comprendre ce que l’on souhaite exactement. Pour Themos, il s’agit d’une méthode semi-automatique : l’utilisateur tape un mot-clé et l’algorithme doit renvoyer un ensemble de tweets dont le sujet est toujours une nouveauté par rapport au mot-clé choisi. Dans son billet, il donne l’exemple de tweets à propos de l’IPhone dont la nouveauté est sur la demande par les utilisateurs d’avoir un câble USB plus long. La nouveauté n’est donc ici que le fait qu’une idée émerge de la foule : le câble est trop court. Si on réfléchit un peu on voit bien ce qui va distinguer une nouveauté d’un tweet banal : c’est l’effet boule de neige. Un utilisateur tweet a propos de quelque chose, et ce petit quelque chose est suffisamment pris à coeur pour qu’il soit tweeté et retweeté.

La méthodologie proposé par Themos est la suivante (discussion après la présentation) :

  1. Collecter un grand nombre de tweets qui correspondent à un domaine sémantique (ici « IPhone »), trouver des mots clés pour chacun de ses tweets qui vont identifier des contextes (« câble », « chargeur », etc.).
  2. Calculer les fréquences de ces mots clé dans l’ensemble des tweets collectés.
  3. Générer à partir des fréquences et des mots clé un ensemble de requêtes « intelligentes ».
  4. Soumettre ces requêtes à Twitter pour trouver les tweets qui correspondent à des nouveautés.

Mon avis sur le processus est assez mitigé. L’idée et le procédé semblent tout à fait correctes, modulo le fait que l’on sache résoudre le problème du point 3. En fait le point 3 est sans doute tout aussi difficile à résoudre que le problème global. L’idée serait de construire les requêtes qui correspondent aux nouveautés, mais pour les construire je dois connaitre les nouveautés, on a un peu un serpent qui se mord la queue ici. L’heuristique la plus évidente consiste à créer des requêtes qui correspondent à la conjonction des mots clés les plus fréquents, mais il n’y a absolument aucune garantie que cela donne un résultat. Si il y a deux nouveautés équivalentes en terme de fréquence, l’une sur le nouveau fouet de cuisine, et l’autre sur Paris Hilton, rien ne dit que la requête « fouet paris hilton » fournira un des résultats attendus…

Bref, un sujet qui est encore à creuser…

Picture: courtesy of Abby Blank