Booster son compte Twitter grâce au data-mining
Depuis maintenant quelques mois j’ai découvert un blog très intéressant, écrit par Themos Kalafatis, qui se trouve ici. L’auteur est un consultant spécialisé dans l’analyse de données et plus particulièrement en exploration de données (data-mining en anglais).
Comme je suis assez fainéant, je fais appel à Wikipedia pour vous rappeller que :
« L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l’extraction d’un savoir ou d’une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques, et l’utilisation industrielle ou opérationnelle de ce savoir.
Elle est utilisée dans le monde professionnel pour résoudre des problématiques très diverses, allant de la gestion de relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l’optimisation de sites web. »
Maintenant que vous savez ce que c’est, je peux vous dire que depuis janvier 2009 Themos Kalafatis raconte dans son blog comment il utilise le data-mining pour analyser le comportement des gens qui utilisent Twitter. En particulier son but est de catégoriser les utilisateurs en clusters de gens qui ont les mêmes centres d’intérêt, de trouver les mots qui vont casser la popularité d’un compte Twitter, et enfin de trouver quels sont les critères (fréquence de posts, etc.) qui font qu’un compte Twitter devient de plus en plus populaire. Le lien direct vers les posts de la catégorie Twitter sur son blog est celui-ci.
Ceci étant, je vais vous livrer quelques un de ses résultats ici.
Sur le clustering des utilisateurs
En utilisant les infos de biographie, nombre de followers, nombre d’updates, les derniers tweets de chaque utilisateur et bien d’autres infos, il montre que l’on peut trouver des groupes d’utilisateurs qui partagent les mêmes centres d’intérêts (trouvés grâce aux mots présents dans les bios). Par exemple le groupe des geeks, des étudiants, des entrepreneurs, des parents, etc.
Sur les mots qui fâchent
Sur ce coup là, il garde les résultats un peu secret, et nous dit juste (après avoir présenté la méthode) que les utilisateurs qui emploient souvent des termes exprimant le fait qu’ils s’ennuient ont tendance à avoir des comptes moins suivis que les autres (de manière statistiquement avérée).
Sur l’augmentation de la popularité
Là il y a par contre des résultats très importants, qui nous donnent des pistes pour booster nos comptes Twitter. Tout est résumé dans l’arbre de décision suivant :
Ce qui ressort de cette figure c’est par exemple :
- Il faut absolument avoir une bio bien remplie (plus de 80% des comptes impopulaires ont une bio vide).
- Il faut faire 3 liens tous les 20 messages au moins, et au moins 1 update par jour. Si vous ne faites pas 3 liens tous les 20 tweets il faut alors faire au moins 5,857 updates par jour (véridique !)
- Si vous ne voulez pas faire au moins ces 3 liens, et si vous ne voulez pas faire ces 5,857 updates, alors vous devrez attendre 223 jours de plus pour attendre le niveau de popularité que vous auriez eu avec ces manips.
Voilà, maintenant c’est à vous de jouer !