Evaluation de SpotRank (comparaison avec deux compétiteurs)

août, 8, 2009
Sylvain

Je vous ai déjà parlé de spotrank.fr, le site web collaboratif de type Digg-like qui a la particularité d’utiliser un algorithme antispam que nous avons mis au point. Quand je dis nous je parle de la petite équipe composée de Thomas Largillier, Guillaume Peyronnet et moi-même. Les sites web sociaux fonctionnent en agrégeant du contenu fourni par les utilisateurs. Ce contenu est généralement filtré, que ce soit par une méthode de filtrage collaboratif (type recommandation par Netflix), ou par une méthode de filtrage social. Digg est sans doute le meilleur exemple d’un tel site, mais la France n’est pas en […]

Read More

SpotRank : un Digg-like robuste aux manipulations ?

juillet, 22, 2009
Sylvain

C’est les vacances, et pendant les vacances le blog est calme, je vous mets quand même ici une copie du mini communiqué pour la sortie de SpotRank : Spotrank.fr est un site web collaboratif de type Digg-like qui a la particularité d’utiliser un algorithme antispam élaboré par des chercheurs afin de proposer les meilleurs résultats possibles. Les sites web sociaux fonctionnent en agrégeant du contenu fourni par les utilisateurs. Ce contenu est généralement filtré, que ce soit par une méthode de filtrage collaboratif (type recommandation par Netflix), ou par une méthode de filtrage social. Digg est sans doute le meilleur […]

Read More

PageRank, BookRank et comportement des internautes.

juin, 28, 2009
Sylvain

Mes lecteurs les plus fidèles savent déjà tout ou presque du pagerank (voir ici et ici). A quoi sert le PageRank ? A classer les pages d’une manière qui serait cohérente avec le comportement naturel d’un internaute moyen, qu’on appelle le surfeur aléatoire, que j’appelle l’internaute crétin : il parcourt le web en suivant les liens au hasard, sauf dans certains cas où il se téléporte sur une page choisie au hasard au sein de toutes les pages présentes sur le web. Naturellement, on comprend que cette hypothèse de comportement totalement aléatoire n’a que peu de chance de correspondre au […]

Read More

Booster son compte Twitter grâce au data-mining

mai, 8, 2009
Sylvain

Depuis maintenant quelques mois j’ai découvert un blog très intéressant, écrit par Themos Kalafatis, qui se trouve ici. L’auteur est un consultant spécialisé dans l’analyse de données et plus particulièrement en exploration de données (data-mining en anglais). Comme je suis assez fainéant, je fais appel à Wikipedia pour vous rappeller que : « L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l’extraction d’un savoir ou d’une connaissance à partir de grandes quantités de données, […]

Read More

Articles acceptés pour présentation à Airweb 2009.

avril, 16, 2009
Sylvain

Je vous ai déjà parlé du workshop Airweb 2009, événement satellite de la grosse conférence sur le web WWW09, événement consacré à la lutte contre les méchants du web… Le workshop commence dans quelques jours à Madrid, et sur le web vous pouvez trouver la liste des articles acceptés, ainsi que les articles eux mêmes (c’est ici que ça se trouve). Pour vous, en exclusivité top mondiale top moumoute, voici la liste et un résumé très rapide du contenu (une analyse des plus intéressants selon moi à venir bientôt dans ces pages). Looking into the Past to Better Classify Web […]

Read More

Commandlinefu.com

mars, 23, 2009
Sylvain

Aujourd’hui un post qui n’est pas très profond pour vous recommander de bookmarker le site http://www.commandlinefu.com. Alors c’est de la pub, c’est vrai mais je ne connais pas l’heureux possesseur de ce site, il ne me paye pas pour ça, et je trouve le site vraiment pratique… Le mieux est d’aller voir ce qui s’y passe, mais il s’agit basiquement d’un site qui liste les meilleurs lignes de commandes, i.e. les plus utiles. Un exemple valant mieux qu’un long discours : Vous voulez downloader l’état d’un site à 3h47 du matin ? facile, il suffit d’utiliser echo ‘wget url’ | […]

Read More

Trustrank

mars, 16, 2009
Sylvain

Qu’est ce que le fameux Trustrank dont tout le monde parle à chaque fois qu’une page est pénalisée sans raisons apparentes dans les SERPs ? Là encore il y a de nombreuses légendes urbaines sur cette notion qui est pourtant très balisée et décrite en détail dans l’article suivant : Zoltán Gyöngyi, Hector Garcia-Molina, Jan Pedersen. Combating Web Spam with TrustRank. 30th International Conference on Very Large Data Bases (VLDB), Toronto, Ontario, Canada, 2004. Le trustrank est un score associée à chaque page web et qui est relativement similaire au pagerank dans l’idée. Certaines pages ont un score de trustrank […]

Read More

Stratégies d’échanges de liens

février, 23, 2009
Sylvain

Nous avons vu dans un précédent billet la stratégie, définie par Zoltan Gyongyi et Hector Garcia-Molina, pour augmenter le pagerank d’une page cible en créant une ferme de liens. Mais dans leur article, ils donnent une précision supplémentaire sur les stratégies à mettre en place pour allier la force de frappe de plusieurs fermes de liens. Je rappelle que l’article en question est le suivant : Zoltan Gyongyi, Hector Garcia-Molina. Link Spam Alliances. 31st International Conference on Very Large Data Bases (VLDB), 2005. Echange de liens à deux Ce que la plupart des gens font (ou faisaient car il paraît […]

Read More

Enchères, pay-per-click et fraude

février, 23, 2009
Sylvain

Il existe plusieurs systèmes de publicités en pay-per-click (PPC), c’est à dire des systèmes publicitaires où la rémunération de l’éditeur d’un site web est dépendante du nombre de clicks qui ont été fait sur chaque publicité. Chacune des publicités se voit ainsi attribuer un prix qui dépend de plusieurs facteurs et in fine du résultat d’une enchère. Il est intéressant de savoir comment est calculé ce prix. Même si ce n’est pas la méthode exacte utilisée par Google, Overture et consorts, cela permet de fixer les idées. Calcul du prix Imaginons le cas très simple suivant : il y a […]

Read More

Augmenter son PageRank

février, 11, 2009
Sylvain

Voici une question que se pose souvent les webmasters… Je vais présenter dans cet article des éléments de réponse (tirés de mes slides du SEO CAMPUS 2009 et plus qu’inspirés d’un article issu des travaux d’une équipe de Stanford). Une première question : pourquoi augmenter le PageRank d’un page La question mérite d’être posée, non ? la réponse est relativement simple : pour faire son classement lors qu’on lui demande une recherche pour une requête particulière, un moteur de recherche va effectuer deux tâches. La première consiste à trouver toutes les pages qui sont pertinentes par rapport à la requête […]

Read More
Picture: courtesy of Abby Blank