Spam et clustering (nouveau papier)

juin, 5, 2010

Et oui, encore un nouveau papier accepté, et encore avec Thomas Largillier : Lightweight Clustering Methods for Webspam Demotion. Thomas Largillier and Sylvain Peyronnet. Web Intelligence 2010. Je n’ai jamais parlé de ces travaux ici, mais je pense qu’ils sont potentiellement intéressants pour la communauté SEO, j’en parlerais donc très prochainement. En attendant, et pour faire très court, nous y proposons une méthode au coût, en terme de calcul, très faible (et qui peut donc être rajouté par exemple au calcul du PageRank sans le rendre vraiment plus long) pour affaiblir l’effet des structures « spamantes » (c’est à dire des fermes […]

Read More

Precision et Recall ?

avril, 10, 2010

Aujourd’hui je vais expliciter deux notions que vous pouvez retrouver dans pas mal d’articles que je cite ou que je tente de vulgariser. Il s’agit des notions de precision et recall (précision et rappel en français). Il s’agit de deux mesures de la qualité d’un mécanisme de classification de données. C’est pour cela que dans le domaine de la lutte contre le spam on retrouve beaucoup ces deux quantités. En effet, lorsque l’on met au point un nouveau mécanisme de détection de spam sur le web, on va vouloir déterminer son efficacité. Il s’agit donc de vérifier si le mécanisme […]

Read More

DISC 2010 Call For Papers

mars, 17, 2010

Preliminary Call for Papers 24th International Symposium on Distributed Computing DISC 2010 September 13-15, 2010, Cambridge, Massachusetts, USA DISC, the International Symposium on DIStributed Computing, is an international forum on the theory, design, analysis, implementation and application of distributed systems and networks. DISC is organized in cooperation with the European Association for Theoretical Computer Science (EATCS). Scope Original contributions to theory, design, analysis, implementation, or application of distributed systems and networks are solicited. Topics of interest include, but are not limited to: • Distributed algorithms; correctness and complexity • Concurrency, synchronization, and transactional memory • Distributed operating systems, middleware, database […]

Read More

2 nouveaux articles ! 2 new papers !

février, 21, 2010

Je suis très content d’annoncer aujourd’hui que deux articles ont été acceptés récemment. Je suis d’autant plus content qu’il s’agit dans les deux cas de travaux effectués en grande partie par des étudiants en thèse au sein de notre équipe. par ailleurs, l’article sur SpotRank annonce l’arrivée dans la « grande famille » des auteurs d’articles scientifiques de mon frère Guillaume, donc encore une bonne nouvelle. Bref,voici les titres et abstracts : SpotRank: A robust voting system for social news websites. Thomas Largillier, Guillaume Peyronnet and Sylvain Peyronnet. WICOW 2010. abstract: We address the problem of designing a robust voting system for […]

Read More

Mon rang est-il crédible ?

janvier, 31, 2010

On le sait tous, les algorithmes de classement basés sur l’utilisation d’un rang induit par une popularité « linkificatrice » sont biaisés d’avance à cause des méchants spammeurs qui obtiennent des liens de manière plus ou moins morale depuis des pages plus ou moins pertinentes. Bien sûr de nombreuses méthodes ont été mis au point dans le but de déclasser l’effet des « mauvais » liens : TrustRank, AntiTrustRank, Topical pagerank, Weighted Pagerank etc… Mais la question qu’on peut globalement se poser est la suivante : peut-on repérer quels sont les liens crédibles ? On peut également se demander si […]

Read More

Constants matter

décembre, 19, 2009

Today I am writing a very small post to encourage you (my beloved readers) to directly go to Richard Lipton’s blog to read this very good post The 3 percent solution. Richard Lipton (professor of Computer Science at Georgia Tech) is talking about a question that arises in its mind about the role of theory w.r.t. real world problems. Indeed, using again and again notation to assess the interest of our work, don’t we loose something? I often tell to my students that the choice of a sorting algorithm in practice does not only depend on the asymptotic complexity, but […]

Read More

Software engineer position at Laboratoire APC

décembre, 2, 2009

I am part of the ANR MIDAS project, and we’re hiring: We search for a dedicated individual to work on an implementation of a numerical library devised for the purpose of the data analysis of Cosmic Microwave Background (CMB) data sets. CMB is one of the most exciting and dynamically developing areas of modern cosmology as it provides a unique opportunity to explore the very early Universe. The data analysis of CMB data sets is central to its successful exploration. New CMB data sets of unprecedented quality and volume are anticipated within the next few years and their analysis will […]

Read More

Latex cheat sheet

novembre, 1, 2009

Winston Chang (from is offering a Latex cheat sheet to the community. It’s here. As he says: « This is a latex reference sheet for writing scientific papers. Unlike many reference sheets available on the internet, it does not focus on mathematics, although some math symbols are listed. » Click on the image to go to the download page.

Read More

Fighting Web Spam?

octobre, 21, 2009

Our friends operating Search Engines have to cope with finding techniques to eliminate spam polluting their Search Engine results. There is a lot of very active research going on in this field , some by the Operators themselves, such as the ineffable Matt Cutts but also by Academics (although the difference between the two isn’t always clear cut).   Researchers working in Stanford’s Infolab (where Brin and Page come from) have written the following article.  As its title shows, it summarises the various and main strategies used to counter unwanted Spam on the web (particularly spam invading online communities): Paul Heymann, […]

Read More

About recommendation systems (2/3)

septembre, 11, 2009

This is the second post about recommendation systems, the first one can be found here. It is pretty obvious that the goal of a recommendation system is to provide users with « good » products. I am going to first introduce our notations and then explain what is a good recommendation in our framework. In the work done with Sebastien hemon and Thomas Largillier, we consider that users belong to a set of distinct users and that products come from , a set of distinct products.  We also suppose that we are given, even implicitly, a function that gives for every couple […]

Read More
Picture: courtesy of Abby Blank