Après le PageRank, le AncestorRank (non ce n’est pas une blague)

juin, 1, 2009
Sylvain

Je vous ai déjà parlé sur ce blog de Brian D. Davison de l’Université de Lehigh et de son laboratoire : le WUME (Web Understanding, Modeling, and Evaluation Lab). Bon, grosso modo Brian D. Davison est un chercheur connu dans le domaine académique du web, et il n’est pas (plus en fait car il vient de Teoma) affilié à un moteur de recherche plus qu’à un autre. C’est un gage d’indépendance dans les recherches et les résultats présentés, c’est aussi synonyme de moyens plus faibles, mais bon on ne peut pas tout avoir.

Bref, tout ça pour dire que ce monsieur s’est constitué une équipe jeune autour de lui, avec de nombreux thésards, qui explore toutes les idées, des plus simples aux plus complexes. Parmi ces étudiants, il y a Jian Wang, une thésarde de son équipe avec qui il a écrit l’article court suivant :

J. Wang and B. D. Davison. (2009). Counting Ancestors to Estimate Authority. Poster summary in Proceedings of the 32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Boston, July.

Comme je le disais, c’est un papier court, en fait c’est même un poster : deux pages dans les proceedings et le papier est présenté à l’aide d’un grand poster pendant la conférence.

Que contient ce papier ?

Le papier propose un nouvel algorithme pour classer les pages par popularité appelé AncestorRank et compare cet algorithme au PageRank. La conclusion est que cette méthode, plus simple et surtout plus efficace (temps de calcul réduit) aurait des résultats similaires au PageRank.

La méthode consiste à compter les ancêtres d’une page, c’est à dire à additionner le nombre de pages qui pointent vers la page avec le nombre de pages qui pointent vers les pages qui pointent vers la page avec les pages qui pointent vers les pages qui pointent vers les pages qui pointent vers la page etc…

Pour que l’algorithme termine (impossible en cas de cycle sur le web avec ce que je viens de dire) il y a un amortissement : une page qui pointe vers moi compte pour 1, une qui pointe vers une page qui pointe vers moi compte pour (par exemple) 0,8, etc.

Comme vous le voyez, l’idée est trivial, mais elle fonctionne, mais ce n’est pas une surprise puisqu’on sait depuis longtemps que compter le nombre de liens entrants vers une page est déjà une bonne approximation du PageRank, et qu’ici on fait encore un peu plus (mais un peu moins que le Pagerank).

Bref, rien de fondamental, rien de très nouveau, mais une petite contribution, qui devrait conforter les SEO que le lien est le nerf de la guerre !

Comments are closed.

Picture: courtesy of Abby Blank