Accueil / Articles PiApplications. / Le référencement des sites Web

Introduction à la SEO.

Pourquoi cet article ? Tout simplement parce qu'il est difficile de trouver actuellement une synthèse correcte et suffisamment simple du domaine sur Internet. Après avoir investi quelques sous dans des ouvrages dits "spécialisés" (et en anglais) sur le sujet, il est vite apparu que cet investissement était regrettable. A part bombarder le lecteur de lieux communs sur la rédaction et mettre un peu de brouillard autour de techniques visiblement peu maîtrisées, la SEO avait su préserver ses secrets. Le meilleur apprentissage consiste encore à se créer un compte sur la "console search" de Google (à moins que vous ayez déjà un compte Google) et un autre sur son concurrent immédiat avec la console Bing (Microsoft). De-là, tirer l'écheveau et tenter de structurer ce que l'on apprend des différents articles. Bref, c'est long et pas toujours simple ! Nous espérons que cet article répondra, lui, à vos attentes.

La SEO en quelques mots.

La SEO ou Search Engine Optimization est un ensemble de techniques qui visent à optimiser le référencement d'un site Web par les moteurs de recherche. Il est important de noter que ces techniques sont guidées par les moteurs de recherche dont le plus connu est Google. Comme ces moteurs ne répondent à pratiquement aucune normalisation et que leurs algorithmes évoluent continuellement, la SEO n'est pas actuellement une technique stable. Néanmoins, quelques règles se dégagent qui, à défaut de réellement optimiser le référencement, permettent de ne pas nuire au parcours analytique (crawling) des moteurs de recherche. Ce sont ces règles qui sont abordées ici.

La SEO consiste à affecter à l'URL d'un document Web après analyse de son contenu un "poids" au sein d'un index. Lorsque qu'une recherche est exécutée, un grand nombre de documents y répondent et l'ordre de leur présentation dépend du poids de cette page. Ce poids est augmenté ou diminué au cours du temps en fonction de nombreux paramètres dont la fréquence de mise à jour, le poids cumulé des URL qui référencent le document auquel il est affecté, le nombre d'accès au document via le moteur de recherche, la richesse et l'unicité du contenu, etc. Bien entendu, les règles qui jouent ici sont précieusement tenues secrètes ce qui peut se concevoir au regard des enjeux commerciaux.

Plusieurs techniques visent à tirer parti des algorithmes de pondération. Ces techniques se répartissent en deux grandes familles :

  1. la recherche d'un référencement depuis des sites "lourds" ;
  2. la création de sites satellites (comme le mise en place de BLOG privés) qui visent à accroitre artificiellement le contenu ainsi que le nombre de liens tout en augmentant la fréquence de mise à jour globale du site.

La première famille de techniques est plus une activité commerciale que technique. Elle n'est donc pas abordée ici. La seconde est une forme de "tricherie" qui contrevient aux règles de bonne conduite édictées par la plupart des moteurs de recherche. "Pas vu, pas pris. Vu, pendu" est la maxime qui s'applique ici. Lorsque ce type d'agissement est détecté (et ils sont activement recherchés car ils ont un coût important pour la société à laquelle appartient le moteur de recherche), le site et ses satellites sont tout simplement exclus (pour une période ou définitivement) du moteur de recherche. L'inconvénient est que cette exclusion est discrète : l'organisation en charge du site n'est n'en est généralement pas informée.

Nous n'étudierons donc pas ces techniques qui de toute façon sont à durée de vie courte car les éditeurs de moteur de recherche font évoluer leurs algorithmes pour mieux les détecter et les contrecarrer.

Conseils généraux pour la réalisation de sites Web.

Mise en place de balises <meta>.

Les balises <meta> sont un peu le "couteau Suisse" informatif des pages HTML. En effet, ces balises ont été conçues pour fournir des informations voire des commandes aux navigateurs sans que leur contenu n'apparaisse à l'affichage. De plus, la spécification de cet élément est suffisamment permissive pour en permettre l'évolution au gré des besoins.

Grâce à leur transparence vis-à-vis de la présentation du contenu d'une page, Il est assez logique que les balises <meta> aient été les premiers éléments utilisés par les moteurs de recherche pour obtenir des informations uniquement destinés à leur propre fonctionnement. Il existe des balises <meta> "standards"  utilisées par la plupart des moteurs de recherche :

A ces balises, s'ajoutent deux balises de l'élément <head> très importante pour les moteurs de recherche :

  1. <title> qui fixe le titre de la page (celui qui apparait généralement sur l'onglet).
  2. <link rel="icon" type="{type MIME de l'image}" href="{url de l'image}" /> qui fixe l'icône associée à la page et qui est souvent reprise par les moteurs de recherche pour illustrer le lien.

En dehors de la balise "refresh" et de la balise "robots" qui ne doit être utilisée que si certaines parties du site ne doivent pas être indexées, toutes les balises ci-dessus devraient figurer sur chacune des pages d'un site.

De plus, chaque moteur dispose de sa propre gamme de balise <meta> "propriétaire". Google par exemple, en dresse la liste.

Bien que cette technique des balises  suffisent dans la plupart des cas, il est possible d'améliorer considérablement la sémantique attachée à une page HTML auprès des moteurs de recherche grâce à une définition de données structurées (cf. schema.org). Ces données peuvent êtres intégrées aux pages selon 3 modes :

  1. Metadata (une extension des attributs de n'importe quelle balise selon un modèle hiérarchisé) ;
  2. RDFa (extension du modèle des balises du W3C) ;
  3. JSON-LD (utilise la balise <script type="application/ld+json"/> pour présenter ce contenu sémantique façon JavaScript sans couplage au code HTML ;

Les deux premiers modes couplent assez fortement le code HTML à cette description sémantique en jouant sur les éléments HTML. La dernière permet d'isoler cet enrichissement du code HTML. Tous les moteurs de recherche ne comprennent pas forcément l'ensemble des modes (sauf les principaux).

Enfin, d'autres initiatives comme OpenSearch (partage des résultats de recherche) ou OpenGraph (couplage des pages aux réseaux sociaux) ont également leur importance en matière de SEO.

Intégration d'une carte du site.

Une des grandes difficulté des moteurs de recherche est de se déterminer les documents "utiles" sur un site Web. Lorsque rien ne le précise, il analysent le contenu de chaque document à la recherche de liens hypertextes. Pour chaque lien trouvé, ils chargent ensuite le document et réitèrent l'analyse et la recherche de liens (en éliminant ceux déjà traités). Ces analysent sont coûteuses en délai et en temps processeurs. De plus, de nombreux documents non forcément utiles sont ainsi intégrés au processus. Il serait bien plus simple pour le moteur de recherche de disposer d'une "table des matières".

Google, Yahoo et Microsoft, 3 éditeurs majeurs de moteurs de recherche, se sont mis d'accord pour permettre aux webmasters de fournir une telle table de matière. Cette dernière s'appelle "carte du site" ou sitemap en anglais. Il s'agit d'un fichier à la syntaxe XML et à la grammaire fixée par le site www.sitemaps.org.

Le fichier de carte du site pour moteur de recherche se nomme généralement sitemap.xml et decrait être placé sur le chemin racine du site à analyser. Il est possible de créer également un sitemap dédié aux images. Dans ce cas le fichier se nomme images_sitemap.xml et répond à sa propre grammaire.

Bien que la réalisation d'une carte de site soit facile (il y a assez peu d'éléments). De nombreux outils le permettent dont l'excellent Screaming Frog SEO Spider. (gratuit jusqu'à 500 URL analysé, ~150€ au-delà [prix de juillet 2015]). Il est probable que la plupart des moteurs augmenteront légèrement la notation d'un site lorsque de telles cartes sont utilisées.

(c) PiApplications 2016