septembre, 9, 2009
Sylvain
This post is highly inspired from the introduction of a research paper, written by Sébastien Hémon, Thomas Largillier and myself, entitled Partial ranking of products for recommendation systems. Recommending products to customers is a field far older than computer science. With the tremendous increase of the commercial potential of the e-commerce it has become of the utmost importance to perform well in this field. Moreover, companies have now the ability to store information about consumption habits of customer: their previous purchases, their tastes. They also have access to information that often allows to cluster customers into communities that share some […]
Read More
Algorithms and computation, Level 1 |
juin, 1, 2009
Sylvain
Je vous ai déjà parlé sur ce blog de Brian D. Davison de l’Université de Lehigh et de son laboratoire : le WUME (Web Understanding, Modeling, and Evaluation Lab). Bon, grosso modo Brian D. Davison est un chercheur connu dans le domaine académique du web, et il n’est pas (plus en fait car il vient de Teoma) affilié à un moteur de recherche plus qu’à un autre. C’est un gage d’indépendance dans les recherches et les résultats présentés, c’est aussi synonyme de moyens plus faibles, mais bon on ne peut pas tout avoir. Bref, tout ça pour dire que ce […]
Read More
Algorithms and computation, Level 1 |
avril, 16, 2009
Sylvain
Je vous ai déjà parlé du workshop Airweb 2009, événement satellite de la grosse conférence sur le web WWW09, événement consacré à la lutte contre les méchants du web… Le workshop commence dans quelques jours à Madrid, et sur le web vous pouvez trouver la liste des articles acceptés, ainsi que les articles eux mêmes (c’est ici que ça se trouve). Pour vous, en exclusivité top mondiale top moumoute, voici la liste et un résumé très rapide du contenu (une analyse des plus intéressants selon moi à venir bientôt dans ces pages). Looking into the Past to Better Classify Web […]
Read More
Algorithms and computation, Level 2 |
mars, 16, 2009
Sylvain
Qu’est ce que le fameux Trustrank dont tout le monde parle à chaque fois qu’une page est pénalisée sans raisons apparentes dans les SERPs ? Là encore il y a de nombreuses légendes urbaines sur cette notion qui est pourtant très balisée et décrite en détail dans l’article suivant : Zoltán Gyöngyi, Hector Garcia-Molina, Jan Pedersen. Combating Web Spam with TrustRank. 30th International Conference on Very Large Data Bases (VLDB), Toronto, Ontario, Canada, 2004. Le trustrank est un score associée à chaque page web et qui est relativement similaire au pagerank dans l’idée. Certaines pages ont un score de trustrank […]
Read More
Algorithms and computation, Level 2, SEO |
mars, 11, 2009
Sylvain
Il y a quelques temps, Lionel (l’un des yooda boys), me demandait si il existait des études dans la littérature scientifique sur l’impact des ancres des liens sur le positionnement dans le classement donné par les moteurs de recherche. On peut élargir cette question à l’utilisation de tous les attributs sur les liens. Autant être clair tout de suite, il n’y a quasiment aucun article sur ce sujet. Sans doute plusieurs raisons à ça : les premiers à mener de telles recherche sont les équipes des moteurs, qui n’ont aucun intérêt à communiquer la dessus, vu que ce doit être […]
Read More
Algorithms and computation, Level 3, SEO |
février, 23, 2009
Sylvain
Il existe plusieurs systèmes de publicités en pay-per-click (PPC), c’est à dire des systèmes publicitaires où la rémunération de l’éditeur d’un site web est dépendante du nombre de clicks qui ont été fait sur chaque publicité. Chacune des publicités se voit ainsi attribuer un prix qui dépend de plusieurs facteurs et in fine du résultat d’une enchère. Il est intéressant de savoir comment est calculé ce prix. Même si ce n’est pas la méthode exacte utilisée par Google, Overture et consorts, cela permet de fixer les idées. Calcul du prix Imaginons le cas très simple suivant : il y a […]
Read More
Algorithms and computation, Level 2, Money |
janvier, 31, 2009
Sylvain
Cher lecteur, tu t’intéresses aux moteurs de recherche, donc tu sais que la plupart des moteurs (en tout cas au moins celui qui est ton préféré) effectuent deux tâches distinctes : l’analyse de la pertinence et le classement des pages entre elles. Pour la deuxième tâche l’algorithme le plus connu est probablement le PageRank de Google, dont je parlerais un autre jour. Bref, revenons à l’analyse de la pertinence d’une page (=un document) par rapport à un requête. En 1968, Gerard Salton (1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval) présente pour la première fois le modèle vectoriel. […]
Read More
Algorithms and computation, Level 2 |
janvier, 19, 2009
Sylvain
Une erreur très classique dans la conduite d’un A/B test est de conclure que l’un des choix est meilleur que l’autre alors que la différence peut être due à une variation tout à fait normale des variables aléatoires. Cela arrive dans un cas très balisé pourtant : celui où la taille de l’échantillon est trop petite pour que, dans la cas d’une différence de valeurs faibles sur le critère, l’on puisse avoir une conclusion significative. Comment calculer la taille de l’échantillon ? Tout est une histoire de précision et de confiance. Ce que l’on souhaite, c’est estimer de manière suffisamment […]
Read More
Algorithms and computation, Level 2, SEO |
janvier, 17, 2009
Sylvain
Je vais dans ce billet vous présenter brièvement ce qu’est le A/B testing (également appelé split testing). Dans un second billet je parlerais de la représentativité de ce genre de test (c’est à dire je répondrais à la question « la décision que j’ai pris à l’aide de mon A/B test est-elle la bonne ? »). L’A/B testing permet de choisir entre plusieurs modifications de votre site celle qui maximisera un certain critère (taux de conversion, durée de la visite etc.). Le concept du A/B testing est complètement idiot : il s’agit de couper aléatoirement ses visiteurs en plusieurs groupes, […]
Read More
Algorithms and computation, Level 1, SEO |
avril, 21, 2008
Sylvain
Recommander des produits à des utilisateurs selon leurs préférences n’est pas a priori quelque chose de très neuf, même les poissonniers font ça pour vendre leurs crevettes (« t’as aimé mon homard, tu aimeras mes crevettes »). Cependant, avec la mode web 2.0 communautaire et tout, la recommandation prend un sens nouveau et s’automatise au même rythme que nous nous faisons de nouveaux amis de plus en plus virtuels. Plus sérieusement, avec les technos actuelles on peut stocker les avis et préférences de manière totalement massive, on dispose d’une puissance de calcul virtuellement illimitée et en plus les plateformes de […]
Read More
Algorithms and computation, Level 2 |