Après le PageRank, le AncestorRank (non ce n’est pas une blague)

juin, 1, 2009
Sylvain

Je vous ai déjà parlé sur ce blog de Brian D. Davison de l’Université de Lehigh et de son laboratoire : le WUME (Web Understanding, Modeling, and Evaluation Lab). Bon, grosso modo Brian D. Davison est un chercheur connu dans le domaine académique du web, et il n’est pas (plus en fait car il vient de Teoma) affilié à un moteur de recherche plus qu’à un autre. C’est un gage d’indépendance dans les recherches et les résultats présentés, c’est aussi synonyme de moyens plus faibles, mais bon on ne peut pas tout avoir. Bref, tout ça pour dire que ce […]

Read More

Articles acceptés pour présentation à Airweb 2009.

avril, 16, 2009
Sylvain

Je vous ai déjà parlé du workshop Airweb 2009, événement satellite de la grosse conférence sur le web WWW09, événement consacré à la lutte contre les méchants du web… Le workshop commence dans quelques jours à Madrid, et sur le web vous pouvez trouver la liste des articles acceptés, ainsi que les articles eux mêmes (c’est ici que ça se trouve). Pour vous, en exclusivité top mondiale top moumoute, voici la liste et un résumé très rapide du contenu (une analyse des plus intéressants selon moi à venir bientôt dans ces pages). Looking into the Past to Better Classify Web […]

Read More

Trustrank

mars, 16, 2009
Sylvain

Qu’est ce que le fameux Trustrank dont tout le monde parle à chaque fois qu’une page est pénalisée sans raisons apparentes dans les SERPs ? Là encore il y a de nombreuses légendes urbaines sur cette notion qui est pourtant très balisée et décrite en détail dans l’article suivant : Zoltán Gyöngyi, Hector Garcia-Molina, Jan Pedersen. Combating Web Spam with TrustRank. 30th International Conference on Very Large Data Bases (VLDB), Toronto, Ontario, Canada, 2004. Le trustrank est un score associée à chaque page web et qui est relativement similaire au pagerank dans l’idée. Certaines pages ont un score de trustrank […]

Read More

Attributs des liens et moteurs de recherche

mars, 11, 2009
Sylvain

Il y a quelques temps, Lionel (l’un des yooda boys), me demandait si il existait des études dans la littérature scientifique sur l’impact des ancres des liens sur le positionnement dans le classement donné par les moteurs de recherche. On peut élargir cette question à l’utilisation de tous les attributs sur les liens. Autant être clair tout de suite, il n’y a quasiment aucun article sur ce sujet. Sans doute plusieurs raisons à ça : les premiers à mener de telles recherche sont les équipes des moteurs, qui n’ont aucun intérêt à communiquer la dessus, vu que ce doit être […]

Read More

Enchères, pay-per-click et fraude

février, 23, 2009
Sylvain

Il existe plusieurs systèmes de publicités en pay-per-click (PPC), c’est à dire des systèmes publicitaires où la rémunération de l’éditeur d’un site web est dépendante du nombre de clicks qui ont été fait sur chaque publicité. Chacune des publicités se voit ainsi attribuer un prix qui dépend de plusieurs facteurs et in fine du résultat d’une enchère. Il est intéressant de savoir comment est calculé ce prix. Même si ce n’est pas la méthode exacte utilisée par Google, Overture et consorts, cela permet de fixer les idées. Calcul du prix Imaginons le cas très simple suivant : il y a […]

Read More

Modèle vectoriel et cosinus de Salton

janvier, 31, 2009
Sylvain

Cher lecteur, tu t’intéresses aux moteurs de recherche, donc tu sais que la plupart des moteurs (en tout cas au moins celui qui est ton préféré) effectuent deux tâches distinctes : l’analyse de la pertinence et le classement des pages entre elles. Pour la deuxième tâche l’algorithme le plus connu est probablement le PageRank de Google, dont je parlerais un autre jour. Bref, revenons à l’analyse de la pertinence d’une page (=un document) par rapport à un requête. En 1968, Gerard Salton (1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval) présente pour la première fois le modèle vectoriel. […]

Read More

Est ce que mon A/B test est significatif (statistiquement parlant) ?

janvier, 19, 2009
Sylvain

Une erreur très classique dans la conduite d’un A/B test est de conclure que l’un des choix est meilleur que l’autre alors que la différence peut être due à une variation tout à fait normale des variables aléatoires. Cela arrive dans un cas très balisé pourtant : celui où la taille de l’échantillon est trop petite pour que, dans la cas d’une différence de valeurs faibles sur le critère, l’on puisse avoir une conclusion significative. Comment calculer la taille de l’échantillon ? Tout est une histoire de précision et de confiance. Ce que l’on souhaite, c’est estimer de manière suffisamment […]

Read More

Qu’est ce que le A/B testing ?

janvier, 17, 2009
Sylvain

Je vais dans ce billet vous présenter brièvement ce qu’est le A/B testing (également appelé split testing). Dans un second billet je parlerais de la représentativité de ce genre de test (c’est à dire je répondrais à la question « la décision que j’ai pris à l’aide de mon A/B test est-elle la bonne ? »). L’A/B testing permet de choisir entre plusieurs modifications de votre site celle qui maximisera un certain critère (taux de conversion, durée de la visite etc.). Le concept du A/B testing est complètement idiot : il s’agit de couper aléatoirement ses visiteurs en plusieurs groupes, […]

Read More

Dis monsieur, recommande moi un mouton…

avril, 21, 2008
Sylvain

Recommander des produits à des utilisateurs selon leurs préférences n’est pas a priori quelque chose de très neuf, même les poissonniers font ça pour vendre leurs crevettes (« t’as aimé mon homard, tu aimeras mes crevettes »). Cependant, avec la mode web 2.0 communautaire et tout, la recommandation prend un sens nouveau et s’automatise au même rythme que nous nous faisons de nouveaux amis de plus en plus virtuels. Plus sérieusement, avec les technos actuelles on peut stocker les avis et préférences de manière totalement massive, on dispose d’une puissance de calcul virtuellement illimitée et en plus les plateformes de […]

Read More
Picture: courtesy of Abby Blank