Référencement naturel avec le fichier robots.txt

En règle générale, il est du devoir des administrateurs de sites Internet professionnels de travailler au bon référencement de leur projet dans les moteurs de recherche. Une des conditions sine qua non est que les robots d’indexation puissent lire toutes les URLs pour qu’ils les adoptent par la suite. Par ailleurs, il est important de veiller à ce que les moteurs de recherche ne puissent pas, parfois, explorer certains sites dans leur totalité. En effet, les capacités de ces programmes sont limitées et même Google n’est pas en mesure ni de créer et ni de sauvegarder des contenus Web à l’infini. Au lieu de cela, chaque nom de domaine est lié à un budget pour un référencement naturel. Cette somme indique le nombre d’URLs qui peuvent être indexés et lus tous les jours. Il est conseillé aux administrateurs de sites Internet d’envergure de procéder ici avec stratégie en signalant, tout d’abord, aux robots de recherche quelles sont les parties de leurs sites Internet qui doivent être indexées, et quelles sont celles à ignorer. Les outils importants dans le cadre d’un référencement naturel sont les informations sur les robots dans les balises méta, les balises canoniques et bien entendu les fichiers robots.txt dont il est question dans cet article.

Qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt est un fichier de texte pur qui est placé à la racine d’un nom de domaine. Il permet aux administrateurs de contrôler l’accès des moteurs de recherche à des sites Internet. Les informations contenues dans un fichier robots.txt font référence à l’ensemble de l’arborescence d’un répertoire. C’est ainsi que cet outil d’indexation se distinguent des fichiers des robots méta et de leurs redirections qui ne valent que pour un document HTML unique. L’important est que le fichier robots.txt soit compris des moteurs de recherche comme étant une instruction à suivre. La plupart des moteurs de recherche indiquent qu’ils suivent ces lignes directrices. Par ailleurs, il est possible de ne pas pouvoir accéder à une partie particulière d’un site seulement si celle-ci est protégée par un mot de passe.

Créer un fichier robots.txt

Pour que des robots puissent accéder à des instructions d’indexation individuelles, il faut qu’un fichier texte pur soit nommé exactement robots.txt et qu’il se trouve à la racine d’un nom de domaine. S’il faut que des instructions d’indexation soient définies pour le domaine exemple.fr, il convient alors que le fichier robots.txt se trouve dans le même répertoire soit www.exemple.fr. Un tel fichier est téléchargeable sur Internet sous l’adresse www.exemple.fr/robots.txt. Si le modèle d’hébergement choisi ne fournit pas d’accès au répertoire racine du serveur, mais seulement à un sous-dossier (tel que www.exemple.fr/utilisateur/), un référencement naturel au moyen du fichier robots.txt est alors impossible. Les administrateurs de sites Internet qui créent des fichiers robots.txt doivent avoir accès à un éditeur de texte pur tel que vi (Linux) voire notepad.exe (Windows) et s’assurer via transfert FTP que le fichier est transféré dans le mode ASCII. Il est possible de créer des robots.txt grâce à des générateurs présents sur la Toile. Etant donné que des erreurs de syntaxe peuvent avoir des effets dévastateurs sur l’indexation d’un projet Web, il convient de tester le fichier texte avant de la télécharger. Google dispose pour cela d’un outil efficace dans le cadre de son programme Search Console.

Construction d’un fichier robots.txt

Tout fichier robots.txt contient des enregistrements composés de deux parties. La première commence par le mot-clé User-agent et s’adresse à un robot d’indexation qui figure dans la deuxième partie. Ces instructions consistent en général à empêcher l’exploration grâce au premier mot-clé soit Disallow. Par la suite, un répertoire voire un ou plusieurs fichiers sont cités. Voici le schéma de base à respecter :

User-agent: Googlebot
Disallow: /temp/ 
Disallow: /news.html
Disallow: /print 

Dans cet exemple, le fichier robots.txt est valable uniquement pour le robot d’indexation dont le nom est Googlebot, soit l’agent utilisateur de Google. Il interdit la lecture du répertoire /temp/ ainsi que celle du fichier news.html. Par ailleurs, tous les fichiers ainsi que les répertoires dont les chemins commencent par print sont bloqués. Il convient ici de faire attention à bien distinguer la syntaxe de Disallow: /temp/ et de Disallow: /print en omettant un slash à la fin.

Insérer des commentaires

Il est possible d’insérer des commentaires dans des fichiers robots.txt. Ces derniers peuvent être ajoutés n’importe où grâce à un croisillon (#).

# robots.txt pour http://www.exemple.fr

User-agent: Googlebot
Disallow: /temp/ # Le répertoire contient des fichiers temporaires 
Disallow: /print/ # Le répertoire contient des impressions de pages 
Disallow: /news.html # Le fichier change tous les jours 

S’adresser à plusieurs agents utilisateurs

Si plusieurs moteurs de recherche sont impliqués, le fichier robots.txt a la possibilité de bloquer plusieurs parties d’un site Internet. Par ailleurs, une ligne vide est tout le temps ajoutée devant les agents utilisateurs.

# robots.txt pour http://www.exemple.fr

  User-agent: Googlebot
  Disallow: /temp/ 
   
  User-agent: Bingbot 
  Disallow: /print/

Alors que Google interdit le robot d’indexation d’explorer dans le répertoire /temp/, Bingbot empêche également l’indexation du dossier /print/.

S’adresser à tous les agents utilisateurs

Il convient de mettre un petit astérisque (*) pour que tous les robots d’indexation soient interdits d’accès à certains répertoires ou fichiers.

# robots.txt pour http://www.exemple.fr

User-agent: *
Disallow: /temp/
Disallow: /print/
Disallow: /pictures/

Le fichier robots.txt bloque les répertoires /temp/, /print/ et /pictures/ pour tous les moteurs de recherche.

Exclure tous les répertoires de l’indexation

Dans le cas où les agents utilisateurs se voient refuser l’accès à tout un site Internet, un simple slash (/) suffit après le mot-clé Disallow.

# robots.txt pour http://www.exemple.fr

  User-agent: *
  Disallow: /

Dans ce cas, tous les robots d’indexation ont pour instruction d’ignorer entièrement le site. Un tel fichier robots.txt s’applique par exemple dans le cadre de projets Web qui se trouvent encore dans leur phase de test.

Autoriser l’indexation de tous les répertoires

Si un robot a la possibilité d’explorer et d’indexer entièrement un site Internet, les administrateurs de sites Internet peuvent le signaler en utilisant le mot-clé Disallow sans slash :

# robots.txt pour http://www.exemple.fr

User-agent: Googlebot
Disallow: 

Si un fichier robots.txt contient un Disallow sans slash, le site entier est alors accessible au robot d’indexation défini par l’agent utilisateur.

Tableau 1: fonctionnalités de base du fichier robots.txt
Consignes Exemples Functionnalités
User-agent: User-agent: Googlebot S’adresse à un robot d’indexation en particuliers
  User-agent: * S’adresse à tous les robots d’indexation
Disallow: Disallow: Le site entier peut être exploré
  Disallow: / Le site entier est bloqué
  Disallow: /répertoire/ Un répertoire spécifique est bloqué
  Disallow: /fichier.html Un fichier particulier est bloqué

D’autres fonctionnalités

Au-delà de ces fonctionnalités quasi standards, certains moteurs de recherche prennent également en charge des paramètres pour préciser des informations dans le fichier robots.txt. Les fonctionnalités qui suivent sont disponibles sur l’espace assistance de Google. Elles proviennent d’un accord entre Google et Yahoo.

Définir les exceptions

En dehors de Disallow, Google prend en charge un autre mot-clé, soit Allow, dans le fichier robots.txt qui permet de définir des règles d’exception pour les répertoires bloqués.

# robots.txt pour http://www.exemple.fr

User-agent: Googlebot
Disallow: /news/ 
Allow: /news/index.html 

Le mot-clé Allow permet de partager le fichier "http://www.exemple.fr/news/index.html" avec Googlebot bien que le répertoire parent /news/ ne soit pas bloqué.

Bloquer des fichiers avec des extensions spécifiques

Les administrateurs de sites Web, qui souhaitent interdire à Googlebot la lecture de fichiers comportant des extensions spécifiques, peuvent utiliser des enregistrements tels que dans l’exemple suivant :

# robots.txt pour http://www.exemple.fr

User-agent: Googlebot
Disallow: /*.pdf$

Le mot-clé Disallow fait référence à tous les fichiers comportant l’extension .pdf et les protège de l’accès de Googlebot. L’astérisque (*) sert de métacaractère au nom du fichier précédant l’extension. L’entrée avec le signe de dollar ($) à la fin de la ligne signifie l’exclusion.

Signaler un robot d’indexation sur un sitemap

Hormis le pilotage du comportement d’indexation, le fichier robots.txt permet également aux robots de se signaler sur le sitemap (plan de site) d’un projet Web. Voilà comment un fichier robots.txt qui comporte un renvoi à un sitemap se constitue :

# robots.txt pour http://www.exemple.fr

User-agent: *
Disallow: /temp/

Sitemap: http://www.exemple.fr/sitemap.xml

Tableau 2: autres fonctionnalités du fichier robots.txt
Instructions Exemples foncitonnalités
Allow: Allow: /exemple.html Le fichier indiqué voire le répertoire sont autorisés à être indexé.
Disallow: /*…$ Disallow: /*.jpg$ Les fichiers comportant des extensions particulières sont bloqués.
Sitemap: Sitemap: http://www.exemple.fr/sitemap.xml Le sitemap XML se trouve sous l’adresse indiquée.