Le pagerank…

février, 9, 2009
Sylvain

Je vais faire une petite série de billets qui reprendront en grande partie mon intervention au SEO CAMPUS 2009. Et le commencement sera donc à propos de ce qu’est le PageRank. Selon Wikipedia, le PageRank est « le système de classement des pages Web utilisé par le moteur de recherche Google pour déterminer l’ordre et la pertinence des liens dans les résultats de recherche qu’il fournit. De nos jours le PageRank n’est qu’un indice parmi tant d’autres dans l’algorithme qui permet de classer les pages internet dans les résultats de recherche de Google. Ce système a été inventé par Larry Page, […]

Read More

Modèle vectoriel et cosinus de Salton

janvier, 31, 2009
Sylvain

Cher lecteur, tu t’intéresses aux moteurs de recherche, donc tu sais que la plupart des moteurs (en tout cas au moins celui qui est ton préféré) effectuent deux tâches distinctes : l’analyse de la pertinence et le classement des pages entre elles. Pour la deuxième tâche l’algorithme le plus connu est probablement le PageRank de Google, dont je parlerais un autre jour. Bref, revenons à l’analyse de la pertinence d’une page (=un document) par rapport à un requête. En 1968, Gerard Salton (1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval) présente pour la première fois le modèle vectoriel. […]

Read More

Est ce que mon A/B test est significatif (statistiquement parlant) ?

janvier, 19, 2009
Sylvain

Une erreur très classique dans la conduite d’un A/B test est de conclure que l’un des choix est meilleur que l’autre alors que la différence peut être due à une variation tout à fait normale des variables aléatoires. Cela arrive dans un cas très balisé pourtant : celui où la taille de l’échantillon est trop petite pour que, dans la cas d’une différence de valeurs faibles sur le critère, l’on puisse avoir une conclusion significative. Comment calculer la taille de l’échantillon ? Tout est une histoire de précision et de confiance. Ce que l’on souhaite, c’est estimer de manière suffisamment […]

Read More

Pythagore ? Tout est dans le dessin !

novembre, 6, 2008
Sylvain

Une fois n’est pas coutume je vais commencer un billet comme un vrai blogueur : je vais raconter ma vie ! Je me suis donc acheté un tableau blanc pour pouvoir bosser un peu à la maison, et pour le tester j’ai fait une preuve de Pythagore complètement graphique à ma conservatrice préférée… Loisir de geek, fantasme du prof, autre névrose ? Je ne m ‘étendrais pas à ce propos et vais me contenter de vous présenter cette preuve qui, il y a déjà de trop nombreuses années m’a fait découvrir la beauté caché derrière ce que nous racontais ce […]

Read More

SPAM SPAM SPAM SPAM SPAM SPAM

mai, 8, 2008
Sylvain

Avant de continuer plus en avant dans la description (et mes pensées profondes) des techniques de lutte contre le spam sur le web, Il est peut-être bon de rappeler ce que les chercheurs dans le domaine considèrent comme la définition du spam de site web. La seule présentation claire et simple que je connaisse d’une taxonomie du spam sur le web est celle de Gyöngyi et Garcia-Molina (voir l’article [1]). C’est du contenu de cet article que nous allons principalement parler aujourd’hui. Il ne faut jamais oublier l’objectif du référenceur : référencer, c’est à dire faire apparaître dans le top […]

Read More

Analyse anti spam « in-text »

mai, 3, 2008
Sylvain

Dans le folklore SEO, il y a de nombreux serpents de mer de la catégorisation de pages web en page spammy ou légitimes. On peut mentionner le Trustrank (théorisé par Gyongyi, Garcia-Molina et Pedersen [2] en 2004, personne ne sait si il est implanté dans un moteur), l’analyse des liens et l’utilisation de classifiers (par Becchetti, Castillo, Donato, Baeza-yates et Leonardi [1]) et aussi, et c’est le sujet de ce billet, le classifier basé sur des critères in text de Ntoulas, Najork, Manasse et Fetterly [3]. Et c’est amusant, chacun des articles dont je viens de parler est relié à […]

Read More

Dis monsieur, recommande moi un mouton…

avril, 21, 2008
Sylvain

Recommander des produits à des utilisateurs selon leurs préférences n’est pas a priori quelque chose de très neuf, même les poissonniers font ça pour vendre leurs crevettes (« t’as aimé mon homard, tu aimeras mes crevettes »). Cependant, avec la mode web 2.0 communautaire et tout, la recommandation prend un sens nouveau et s’automatise au même rythme que nous nous faisons de nouveaux amis de plus en plus virtuels. Plus sérieusement, avec les technos actuelles on peut stocker les avis et préférences de manière totalement massive, on dispose d’une puissance de calcul virtuellement illimitée et en plus les plateformes de […]

Read More
Picture: courtesy of Abby Blank