les vrais leviers du SEO

août, 4, 2010
Sylvain

Je vous ai déja parlé dans un billet précédent de l’article sur le déclassement du spam que j’ai écrit avec Thomas Largillier (c’est ici). En regardant les articles qui allaient être présentés à la conférence pour trouver ceux qui sont à ne pas rater, je suis tomber sur :

How to Improve Your Google Ranking: Myths and Reality
A.-J. Su, Y. C. Hu, A. Kuzmanovic, and C.-k. Koh
In IEEE/WIC/ACM International Conference on Web Intelligence, Toronto, Canada, August 2010.

Comme en parallèle le milieu SEO français parlait un peu de l’histoire du gars de l’AFNIC qui n’aimait pas les SEO, et qui critiquait notamment le fait qu’on ne pouvait pas savoir quels étaient les vrais leviers avérés du SEO, je me suis dit que j’allais parlé de cet article. Vous pouvez trouver l’article sur la page suivante.

Cet article présente une méthode rigoureuse et scientifique, basée sur l’utilisation de techniques d’apprentissages, pour valider les hypothèses que l’on peut faire sur le fonctionnement d’un moteur de recherche. Les auteurs présentent des résultats réels sur l’algorithme de Google. Par exemple, l’article montre que la méthode peut prédire correctement le rang de 7 pages parmi le top 10 pour 78% des mots clés considérés (bien sur les mots clés choisis sont loin de ceux que les SEO considèrent la plupart du temps, mais les auteurs ont des évidences statistiques que cela fonctionne aussi pour des mots clés très compétitifs). Au final, les auteurs fournissent également une liste des critères dont ils ont une garantie qu’ils sont importants au sein de l’algorithme de classement de Google. Cette liste est ordonnée, et (je me repète) à été obtenue par une méthode valide d’un point de vue statistique.

A l’origine, j’avais prévu d’expliquer en détail le fonctionnement de la méthode, et en particulier de ses fondements mathématiques (utiliser un programme linéaire dont les poids sont calculés via une méthode d’apprentissage standard). Mais je me rends compte que cela ne risque pas d’intéresser mes lecteurs (et renvoient les warriors vers l’article lui même). Je me contente donc de donner la liste des critères valides, dans l’ordre d’importance :

  1. La PageRank est LE facteur le plus important, on en déduit donc que le linking est plus important que le contenu, et toc !
  2. Le mot clé apparait dans l’hostname.
  3. Le mot clé apparait dans le titre du header HTML.
  4. Le mot clé apparait dans la meta description (discussion dans les commentaires !)
  5. Le mot clé apparait dans le chemin de l’URL (mais pas dans le hostname). Ce point m’a surpris, je pensais que l’URL hors hostname était plus importante que le titre, ce n’est pas le cas).

Par ailleurs, l’article valide deux hypothèses assez courantes dans le monde du SEO : tout d’abord le fait que les erreurs de code HTML n’ont AUCUNE importance, mais aussi le fait que les blogs ont moins de valeurs que d’autres types de sites (ils sont moins bien classés à contenu et liens égaux).

Voilà, n’hésitez pas à donner votre point de vue dans les commentaires !

22 Responses to “les vrais leviers du SEO”

Je serai bien intéressé par l’explication plus détaillée, ayant eu des cours sur les méthodes de méthode d’apprentissage, de classification, peut être en level-3 ?

Intéressant de voir que le PR est important, on voit l’ordre d’importance mais donnent t-ils des poids, par exemple le PR compte dans 50%, le mot clé etc…

Car au final, les croyances actuelles des SEO ne mettent ni le PR ni le mot clé dans le hostname comme critère de positionnement important.

Auto-Entrepreneur Lyon, 4 août 2010 à 11:01

L’article est vraiment intéressant, je me lance dans la consultation du fichier pdf pour déterminer de quelle manière ces chercheurs ont créé leur méthodologie. Enfin un article avec un ensemble de test qui ne se base pas uniquement sur nos expériences qui pourraient être biaisées.

@iziasys, 4 août 2010 à 11:12

Article très intéressant…qui aura en tout cas le mérite de raviver plusieurs débats, car il est vrai que les critères mis en avant ne sont pas ceux que les SEO mettent en avant, aujourd’hui!

miu rennes, 4 août 2010 à 16:55

J’ai essayé de comprendre mais le PDF est un peu trop compliqué pour moi. En tout cas une étude qui arrive à la conclusion que la méta description est dans le top 5 des critères de positionnement, y a comme une couille dans le potage non ?

guide Yococo, 4 août 2010 à 17:01

@yococo : ce qui est prouvé c’est que le titre de la page est important, pas les meta description. Et ensuite ce n’est pas une étude, mais une méthode exacte, donc qu’on soit d’accord ou pas avec la conclusion, elle est ainsi. C’est comme ne pas être d’accord avec le théorème de Pythagore, on fait ce qu’on veut, mais il est vrai et c’est ainsi.

Par contre les conclusions seront peut être différente dans 1 jour, 10 jours, 2 mois, etc. Selon la vitesse a laquelle Google modifie son algo.

Enfin, il ne s’agit pas d’un top 5, mais du classement de 4 critères les uns par rapport aux autres. Si je m’intéresse à un autre critère, je dois faire à nouveau tourner la méthode pour voir si elle est valide ou non.

Sylvain, 4 août 2010 à 18:00

Merci pour ta réponse,
Dire que les résultats sont « vrais » et incontestable ça me semble un peu rapide, on peut effectuer une suite de calculs compliqués qui amènent à un résultat supposé incontestable mais qu’en penser si les présupposés de base sont bancals ou si des facteurs importants ont été ignorés à la base?

« In particular, page rank is the dominant factor, followed by
the search keyword appearing in the hostname, in the title
tag of the HTML header, in the meta-description tag, in
the path segment of the URL, as the other leading factors »
As the other leading factors, ça veut bien dire en gros « qui sont les autres facteurs les plus importants » non ?

je tiens à préciser que je ne suis pas du tout calé en sciences et en chiffres donc je te lis avec grand intérêt

guide Yococo, 4 août 2010 à 18:19

Grosso modo cela veut dire que de tout ceux qu’ils ont testés (je pense qu’ils se sont basés sur la liste de SeoMoz évoqué en intro), ceux mentionnés dans cette conclusion sont les plus importants, avec un ordre qui est celui ci. Cela veut aussi dire que les autres critères mentionnés dans l’article ne sont pas probants.

En revanche, cela ne veut pas dire qu’il n’y a aucun autre critère important. C’est d’ailleurs le vrai problème des méthodes statistiques, on ne trouve de corrélation que là où l’on en cherche, la méthode ne peut pas proposer de nouvelles idées (on valide ou invalide une hypothèse, pas plus, on parle d’ailleurs de test d’hypothèse dans le jargon).

Sylvain, 4 août 2010 à 18:28

C’est là où le bât blesse selon moi, il y a déjà eu des tests sur la non-prise en compte de la meta description par google pour le ranking (par exemple http://blog.axe-net.fr/balise-meta-description-referencement/), c’est confirmé par google lui-même
http://googlewebmastercentral.blogspot.com/2007/12/answering-more-popular-picks-meta-tags.html
« While the use of a description meta tag is optional and will have no effect on your rankings »
et cette méthode met cet élément en avant comme étant « primordial » pour le positionnement, c’est plutôt étrange non ?

guide Yococo, 4 août 2010 à 18:45

celui dont parle l’article c’est celui là :

title>The title of the page /title>

Et chez Google, il ne dise rien dessus, ni en bien, ni en mal 😉

ps : je ne mets pas le <, sinon cela n'affiche pas le code 😉

Sylvain, 4 août 2010 à 20:11

Bon on ne doit pas bien se comprendre :
la conclusion de cette étude est que
In particular, page rank is the dominant factor, followed by
the search keyword appearing in the hostname, in the title
tag of the HTML header, in the meta-description tag, in
the path segment of the URL, as the other leading factors”
le facteur le plus important pour le positionnement est le page rank et les autres critères primordiaux sont les mots clés présents dans le nom de domaine, dans le title, dans la meta description et dans l’URL si je traduis bien.

Comment accorder du crédit à ce test qui préconise de jouer sur la balise meta description pour mieux se positionner alors qu’il est avéré que c’est faux ?

guide Yococo, 4 août 2010 à 20:48

OK, j’ai compris la confusion. Comme je le disais il s’agit de corrélation. ce que dit la conclusion c’est que parmi les pages bien classées pour un mot clé, les facteurs significatifs ET corrélés sont dans l’ordre

En aucune manière ce (non test) calcul statistique ne préconise quoi que ce soit, il ne fait que constater. Ta phrase est déja une conclusion que tu tires d’une donnée factuelle.

Je vais te donner un autre exemple : en sécurité routière, il s’avère que la plupart des accidents mortels sur autoroute ont en compte une vitesse excessive. Les gens en tirent la conclusion que la vitesse cause l’accident. En fait c’est faux, la vitesse rend un accident, dont la cause est autre, mortel.
Mais continuons l’exemple : en sécurité routière, il s’avère que la plupart des accidents mortels sur autoroute ont en compte une prise de psychotropes (alcool, drogues ou antidepresseurs), en fait c’est plus de 80% des cas. Et dans ce cas oui, cela cause l’accident.

Dans les deux exemples on conclut de manière similaire mais dans un cas c’est faux, dans l’autre c’est correcte. Ceci est dû au fait que la corrélation n’est pas la causalité.

Encore un exemple : quand il pleut tout le monde sort avec son parapluie. Si je vois tout le monde dans la rue avec un parapluie, dois je en déduire qu’il va pleuvoir ? Bien sur que non.

Au final, peut etre que la meta description est juste presque toujours bien renseigné chez les bon SEO (au bénéfice du doute) et donc apparait comme facteur important.

Sylvain, 4 août 2010 à 21:39

merci pour ces éclaircissements ! je t’ai répondu sur le forum

guide Yococo, 4 août 2010 à 22:54

Et la balise meta keywords alors, elle n’est pas dans le top 5 ?

PS : ce post est réservé à un public averti. Il peut heurter la sensibilité…

Specialty Chemicals, 4 août 2010 à 23:56

Le titre de l’article publié est « How to Improve Your Google Ranking: Myths and Reality « .
C’est un titre accrocheur et digne d’un blog SEO… On s’écarte un peu de la science quand on voit les conditions de réalisation du crawl:

-Les pages générées dynamiquement (php, asp…) ne sont pas aspirées -> que des fichiers en .html
=> Beaucoup de blogs (pour ne pas dire tous) sont dans ces langages, qui plus est, pourquoi ces fichiers ne sont pas crawlés ???

-Les pages crawlées sont en anglais
=> Ce qui est valable pour une langue ne l’est pas nécessairement pour d’autres.

-Les requêtes sont effectuées par l’API Google
=> Le positionnement avec l’API n’est pas le même que celui obtenu à la mano.

-L’age de la page correspond à la d’indexation
=> Ca n’a pas beaucoup de sens, puisqu’une page est recrawlée et indexée et remise en cache sans qu’il y ait eu de modification -> la date d’indexation ne correspond pas à la date donnée dans la page en cache.

-Age du site est obtenu avec archive.org …

Je me suis arrêté au crawl (III, A. The Crawler), mais cette première partie présage des résultats d’une utilité très discutable tant les hypothèses de départ sont discutables.

Ths, 5 août 2010 à 9:03

Merci pour ces éclaircissements, je n’ai pas eu la motivation pour lire l’article dans son intégralité.

modèle lettre, 8 août 2010 à 18:36

Article très intéressant : même si il n’y a pas de révolution annoncée, la confirmation scientifique est intéressante. Par contre je me pose des questions sur le dernier point :

« Les blogs ont moins de valeurs que d’autres types de sites (ils sont moins bien classés à contenu et liens égaux) »

WordPress est utilisé autant par des « sites » que par des « blogs » donc je me demande quelle est la définition de « blog » dans cette hypothèse.

Sylvain, 8 août 2010 à 23:46

Au moins ce post à le mérite de déchainer les passions ^^
Je suis également partisans du « une petite chose + un petite chose + un petite chose = bon ranking ».
Tous les facteurs cités sont des facteurs connus (sauf pour la méta description).
Donc on n’apprend pas grand chose de nouveau.
Par contre, je serais curieux de voir cette théorie appliquée sur de nouvelle thématique pour vérifier que la prédiction est correcte à 70 % 😉 parce qu’il me semble que le graph des liens est difficile à réaliser et si on parle juste du PR de la barre verte, on s’égare !

Blog référencement, 9 août 2010 à 10:00

Mouais – C’est sympa de mettre le truc en avant et ca a le mérite d’etre plutot scientifique et donc ca fera plaisirs a mon cher ami Stéphane.
Maintenant est ce que c’etait bien la peine de sortir les calculatrices et la grosses artillerie pour pondre cette étude… parce que la bon … faut avouer qu’ils ont juste confirmé statistiquement ce que tout bon SEO sait depuis … je dirais au moins 6 ans … (la popularité avait moins d’importance quand meme il y a 6 ans de ca).

Donc pas de surprise.

Le Juge, 13 août 2010 à 15:55

Je pense que tout bon bidouilleur en SEO arrive a cette conclusion.
Maintenant la question c’est comme optimiser pour monter son PR sans froisser le nouvel algo

Adrien, 31 janvier 2013 à 14:02

Hello Sylvain,

Qu’entends-tu par hostname ? Le nom de domaine ?

Merci.

Olabonga, 15 février 2013 à 11:17
Picture: courtesy of Abby Blank