http://cstheory.stackexchange.com/

novembre, 16, 2010
Sylvain

On connait tous les sites de questions/réponses standards : le fameux CCM, Yahoo! answers et bien d’autres encore. En revanche je suis certain que vous connaissez beaucoup moins le site de questions/réponses collaboratif (et en anglais) dont la thématique est celle de l’informatique théorique au niveau recherche, j’ai nommé http://cstheory.stackexchange.com/. Sur ce site, vous trouverez des questions du type :Pouvez vous donner des exemples d’algorithmes d’apprentissage qui apprennent des propriétés statistiques des données et non pas des observations individuelles sur ces données ? Quelles sont les bornes inférieures pour le problème de la multiplication de matrices dans un modèle de […]

Read More

Un google news thématique pour Twitter ?

avril, 18, 2010
Sylvain

J’ai déjà parlé ici du blog life analytics de Themos Kalafatis. Themos y parle de Twitter et de data mining et il y a souvent des choses intéressantes à retenir de la lecture de ses écrits. Aujourd’hui je vais vous parler d’un de ses billets qui porte sur la détection de la nouveauté sur Twitter. le problème est simple : comment faire pour detecter un hot topic dans un domaine particulier ? Question simple mais réponse difficile à donner. Tout d’abord, il faut bien comprendre ce que l’on souhaite exactement. Pour Themos, il s’agit d’une méthode semi-automatique : l’utilisateur tape […]

Read More

Human evaluation of SpotRank

septembre, 4, 2009
Sylvain

This is the last of the 3 posts about SpotRank. In this one I show some evidence of the effiency of the method. Even with a very strong analysis of the log files, it is impossible to  judge the quality of the filtering of our method. Indeed, the algorithm consists in filtering news w.r.t. the way people vote, it is not content related. To cope with this issue we decided to gather some feedback from the users themselves.  Since an absolute judgement is impossible to obtain without a long debate on what is the quality of a website, we choose […]

Read More

SpotRank: Robust voting scheme for social news websites

septembre, 3, 2009
Sylvain

In this post I give a short overview of SpotRank, an algorithm designed by Thomas Largillier, Guillaume Peyronnet and Myself. The goal of SpotRank is to offer a voting mechanism for social news website (such as Digg for instance) which is robust to manipulation attempts by malicious users. Again the post is highly inspired by our research paper. A previous post introduced social news websites and related issues. We consider that the voting system SpotRank is used by a community of users that can propose its own news (or content), that we will call spots. Any user of the community […]

Read More

Problems of social news websites

septembre, 2, 2009
Sylvain

This post is a part of the introduction of an academic paper coauthored by Thomas Largillier, Guillaume Peyronnet and Myself. I did some modifications, so I endorse all mistakes of this version. In the last years, the way people interact with each others on the Web has drastically changed. Web sites now provide information which is an aggregation of user-generated content, generally filtered using social recommendation methods to suggest relevant documents to users.  The most known example of such a website is Digg. This is a social news website: people share content they found on the web through the Digg […]

Read More

Evaluation de SpotRank (comparaison avec deux compétiteurs)

août, 8, 2009
Sylvain

Je vous ai déjà parlé de spotrank.fr, le site web collaboratif de type Digg-like qui a la particularité d’utiliser un algorithme antispam que nous avons mis au point. Quand je dis nous je parle de la petite équipe composée de Thomas Largillier, Guillaume Peyronnet et moi-même. Les sites web sociaux fonctionnent en agrégeant du contenu fourni par les utilisateurs. Ce contenu est généralement filtré, que ce soit par une méthode de filtrage collaboratif (type recommandation par Netflix), ou par une méthode de filtrage social. Digg est sans doute le meilleur exemple d’un tel site, mais la France n’est pas en […]

Read More

SpotRank : un Digg-like robuste aux manipulations ?

juillet, 22, 2009
Sylvain

C’est les vacances, et pendant les vacances le blog est calme, je vous mets quand même ici une copie du mini communiqué pour la sortie de SpotRank : Spotrank.fr est un site web collaboratif de type Digg-like qui a la particularité d’utiliser un algorithme antispam élaboré par des chercheurs afin de proposer les meilleurs résultats possibles. Les sites web sociaux fonctionnent en agrégeant du contenu fourni par les utilisateurs. Ce contenu est généralement filtré, que ce soit par une méthode de filtrage collaboratif (type recommandation par Netflix), ou par une méthode de filtrage social. Digg est sans doute le meilleur […]

Read More

Booster son compte Twitter grâce au data-mining

mai, 8, 2009
Sylvain

Depuis maintenant quelques mois j’ai découvert un blog très intéressant, écrit par Themos Kalafatis, qui se trouve ici. L’auteur est un consultant spécialisé dans l’analyse de données et plus particulièrement en exploration de données (data-mining en anglais). Comme je suis assez fainéant, je fais appel à Wikipedia pour vous rappeller que : « L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l’extraction d’un savoir ou d’une connaissance à partir de grandes quantités de données, […]

Read More
Picture: courtesy of Abby Blank