Accueil » Blog WordPress » Le fichier robots.txt de votre site WordPress est-il optimisé ?

Le fichier robots.txt de votre site WordPress est-il optimisé ?

Si je vous demande de me définir ce qu’est un fichier robots.txt sur WordPress, êtes-vous capable de me donner une réponse du tac au tac ?

Pas facile, n’est-ce pas ? D’ailleurs, sans le savoir, vous en avez déjà sûrement un sur votre site.

Le truc, c’est qu’on n’y comprend pas toujours grand-chose, à ce fameux fichier. À quoi sert-il ? Qu’est-ce qu’on met dedans ? Pourquoi son code ressemble à du chinois ?

Si vous vous êtes déjà renseigné sur le sujet, je parie que vous vous êtes posé ces questions.

Un peu comme la dynamite, ce fichier doit être manipulé avec beaucoup de précaution.

Si vous le configurez mal, vous risquez de plomber le référencement de votre site. Alors, gare à l’explosion !

Un homme face à de la dynamite

Dans cet article, je vais vous montrer comment éviter la catastrophe, et comment optimiser votre fichier robots.txt. Vous découvrirez notamment à quoi il sert, son mode de fonctionnement, deux façons de le créer, et ce qu’il faut y mettre à l’intérieur.

I – Qu’est-ce que le fichier robots.txt ?

1 – Présentation

Un fichier robots.txt est un fichier texte “situé à la racine de votre site qui indique aux robots d’exploration des moteurs de recherche de ne pas explorer certaines parties de votre site”, selon la définition donnée par Google sur son site d’aide aux webmasters.

Aussi désigné sous le nom de Protocole d’exclusion des robots, il permet d’éviter l’indexation par les moteurs de recherche de certains contenus inutiles et/ou privés (ex : votre page de connexion, des dossiers et fichiers sensibles).

En résumé, ce protocole indique aux robots d’un moteur de recherche ce qu’ils peuvent faire ou non sur votre site.

Voici comment cela fonctionne. Lorsqu’un robot est sur le point de crawler une URL de votre site (c’est-à-dire qu’il va explorer et récupérer des informations pour pouvoir ensuite les indexer), il va d’abord chercher à consulter votre fichier robots.txt.

S’il le trouve, il va le lire, puis suivre les directives que vous aurez renseignées (il ne pourra pas explorer tel ou tel fichier si vous lui avez interdit).

S’il ne le trouve pas, il explorera votre site de façon normale, sans exclure aucun contenu.

J’ai saisi la bête dans son plus simple appareil. Regardez cet exemple de fichier robots.txt sur WordPress pour voir à quoi cela ressemble :

"Le

Ne vous arrêtez pas forcément sur son contenu. Vous le verrez plus tard, il n’existe pas de fichier-type adaptable sur n’importe quel site. En tout cas, cela n’est pas conseillé.

Si vous deviez retenir 4 choses supplémentaires sur notre sujet du jour, mettez-vous ça dans le crâne :

  • Comme l’explique Google, les indications que vous donnez dans votre fichier robots.txt sont “des consignes et non des règles”. Si les robots d’exploration “sérieux” (Google, Bing, Yahoo, Yandex, Baidu etc.) vont les respecter, ce ne sera pas le cas des robots malveillants, qui cherchent à mettre à mal la sécurité de votre site.
  • Le fichier robots.txt est un fichier public. N’importe qui peut y accéder en tapant le modèle suivant : votresite.fr/robots.txt. Par conséquent, ne vous en servez pas pour cacher du contenu, on trouvera vite où il est planqué… Si vous voulez que du contenu reste privé, ne l’insérez pas dans ce fichier.
  • Si vous souhaitez que certaines pages n’apparaissent pas dans les résultats de recherche, “n’utilisez pas le fichier robots.txt pour masquer votre page Web”, détaille Google. En effet, si un certain nombre de liens pointent vers cette page, il est possible que Google l’indexe et l’affiche dans ses résultats de recherche, sans savoir ce qu’elle contient, même si vous l’avez bloquée dans votre fichier robots.txt.Pour empêcher une page d’apparaître dans les résultats de recherche, Google préconise d’utiliser ce que l’on appelle une balise noindex (on peut l’activer facilement dans Yoast SEO en décochant la case « Autoriser les moteurs de recherche à afficher le contenu XXX dans les résultats de recherche ? » située sous chaque article/page au niveau de l’onglet des réglages).
  • Le fichier robots.txt a un cousin prénommé humans.txt.
    Fichier humans.txt
    Comme le raconte le site qui lui est dédié, il s’agit d’un “fichier TXT qui contient des informations au sujet des différentes personnes qui ont contribué à la construction du site”. Par exemple, les développeurs, webdesigners, rédacteurs etc. Il n’a rien d’obligatoire, mais si vous jugez utile de l’intégrer sur votre WordPress, il faudra l’ajouter à la racine de votre site, à côté du fichier robots.txt (regardez celui de la Marmite par exemple)

2 – Avez-vous vraiment besoin d’un robots.txt ?

Par défaut, un site web sera exploré et indexé normalement par un moteur de recherche, même sans la présence d’un fichier robots.txt.

Ce dernier n’a donc rien d’obligatoire. Comme l’explique Daniel Roch, spécialiste du référencement WordPress, “si vous avez dans l’optique de référencer l’intégralité de vos pages, de vos contenus et de vos médias, n’utilisez pas le fichier robots.txt : il ne vous servira à rien.”

Mais alors, quelle peut être l’utilité de ce fichier, le reste du temps ?

Le bénéfice principal est à chercher du côté de votre référencement naturel (SEO). En fait, un fichier robots.txt permet d’économiser ce que l’on appelle le budget de crawl, indique cet article du blog de Yoast SEO.

C’est assez technique, mais pour faire simple : plus vous avez de budget de crawl (le nombre de pages que Google va explorer sur votre site à un instant T), plus votre site a de chances d’être bien indexé sur Google.

Si vous souhaitez creuser le sujet, Olivier Duffez, du site WebRank Info, en parle par ici.

Désormais, il est temps de passer à la configuration de votre fichier. Et c’est important, croyez-moi. S’il n’est pas correctement optimisé, vous risquez de sérieusement pénaliser votre présence sur les moteurs de recherche.

II – Comment créer un fichier robots.txt sur WordPress ?

Par défaut, WordPress crée un fichier robots.txt virtuel. Il n’est pas accessible sur votre serveur, mais vous pouvez le consulter en ligne.

Prenons celui du site d’Usain Bolt, l’ex-star jamaïcaine du sprint.

Usain Bolt

Oui, même le site d’Usain Bolt est conçu sous WordPress

Pour le voir, il vous suffit de taper dans votre navigateur : http://usainbolt.com/robots.txt

Voici ce que vous obtiendrez :

Fichier <code>robots.txt</code> du site WordPress d'Usain Bolt

Ce fichier virtuel fonctionne. Mais comment faire pour modifier ce robots.txt sur votre site WordPress ?

Eh bien vous allez devoir créer votre propre fichier pour le remplacer.

Pour cela, il y a deux façons de procéder :

  • utiliser un plugin
  • le créer manuellement

Je vous propose de découvrir cela en détails.

1 – La méthode pour créer un fichier robots.txt sur WordPress avec Yoast SEO

Je suis prêt à parier que vous connaissez Yoast SEO, non ? Vous savez, il s’agit d’un plugin de référencement, l’un des plus téléchargés de tous les temps.

La Marmite l’utilise, et je vais aussi m’en servir pour vous montrer comment il peut vous permettre de créer un fichier robots.txt.

Évidemment, le préalable est que vous ayez installé, puis activé cette extension.

Commencez par vous rendre sur votre Tableau de bord WordPress, et sélectionnez Yoast SEO > Outils.

Tableau de bord de Yoast SEO

Poursuivez en cliquant sur Éditeur de fichiers.

Editeur de fichiers de Yoast SEO, et notamment du fichier robots.txt

Si vous n’avez pas encore de fichier dédié, cliquez sur le bouton pour en créer un. Pour ma part, j’en avais déjà un sur mon site, donc je ne pouvais que le modifier. Et pensez à bien enregistrer, une fois que vous avez terminé.

Modification du fichier via Yoast SEO

Et voilà, le tour est joué.

Ne vous inquiétez pas, je vous explique à la fin de cette partie quelles informations renseigner dans ce fichier.

Pour l’instant, je vous propose de passer à la seconde méthode : vous allez faire travailler vos petites mains.

2 – La méthode manuelle

Que vous utilisiez un plugin dédié ou pas, il est aussi possible d’ajouter un robots.txt sur votre WordPress manuellement. C’est très simple, vous allez voir.

Premièrement, vous allez avoir besoin d’un éditeur de texte. Parmi eux, je peux vous recommander :

Sinon, votre bon vieux Bloc Notes fera aussi très bien l’affaire.

Créez un nouveau document, et sauvegardez-le sur votre ordinateur en le nommant robots.txt

Son nom doit toujours être en minuscules, et n’oubliez pas de mettre un “s” au mot robots (n’écrivez pas Robot.txt).

Ensuite, connectez-vous à votre client FTP. Il s’agit d’un logiciel qui permet de communiquer avec votre serveur.

Personnellement, je me sers de Filezilla. Mais vous pouvez aussi vous tourner vers Cyberduck ou Transmit. Pour plus d’infos sur le mode d’utilisation d’un FTP, je vous redirige vers l’article Comment installer WordPress : le guide pas à pas.

Troisième et dernière étape : ajoutez votre fichier à la racine de votre site. Je répète, à la racine de votre site, et pas dans un sous-répertoire. Sinon, les moteurs de recherche ne le prendront pas en compte.

Par exemple, si votre site est accessible via https://www.votresite.fr/, le fichier robots.txt devra se trouver à l’adresse https://www.votresite.fr/robots.txt

Cet emplacement (la racine) peut varier d’un hébergeur à un autre. Chez o2switch, il s’appelle public_html. Chez OVH, vous le trouverez sous l’appellation www.

Son implantation finale devrait ressembler à ça, chez vous :

Le <code>robots.txt</code> sur votre serveur

3 – Les règles essentielles à connaître

Félicitations, votre fichier robots.txt se trouve désormais sur votre serveur. Pour le moment, il est vide, mais vous pouvez l’éditer à votre guise quand vous le souhaitez.

Logiquement, vous devez vous demander quels types d’instructions mettre à l’intérieur.

Avant de se pencher sur ce point, il est nécessaire de bien saisir la syntaxe particulière de ce fichier.

Il est constitué d’un ou plusieurs ensembles de règles, qui “bloque (ou autorise) l’accès d’un robot d’exploration donné à un chemin d’accès au fichier précis sur le site Web”, comme l’explique Google sur son aide sur la Search Console.

Les deux règles principales se nomment :

  • User-agent : désigne le le nom d’un robot de moteur de recherche auquel la règle s’applique.
  • Disallow : désigne un répertoire ou une page, relatif au domaine racine, qui ne doit pas être exploré par le user-agent. Rappelez-vous que, par défaut, un robot peut explorer une page ou un répertoire non-bloqué par une règle Disallow.

Je vous propose de décortiquer un exemple tout simple pour que vous compreniez bien.

User-agent: *
Disallow: /

Sur la première ligne, l’astérisque * est ce que l’on appelle une wild-card. Elle indique à tous les robots des moteurs de recherche (user-agent) d’explorer votre site.

Sur la seconde ligne, on interdit (Disallow) l’accès aux moteurs de recherche à tous les répertoires et pages de son site, via le slash /.

Vous n’avez pas besoin d’entrer votre nom de domaine (ex : monsite.fr/) avant le slash, car le fichier robots.txt utilise des URLs relatives. Pour faire simple, il sait que le slash se réfère à la racine de votre nom de domaine.

Évidemment, le bout de code ci-dessus a peu d’intérêt si vous souhaitez que votre site soit exploré et indexé. Mais il peut-être utile lorsque vous êtes en phase de création de votre site.

Si vous ne souhaitez pas qu’un type de robot particulier explore votre site, par exemple celui de Yahoo (Slurp est le nom associé au robot de Yahoo), vous devrez procéder de la sorte :

User-agent: Slurp
Disallow: /

Pour plus d’infos sur les noms des robots, je vous renvoie à cette capture issue du site Yoast SEO.

Liste des moteurs de recherche

Quelques règles additionnelles

Je vous ai parlé de User-agent et de Disallow, qui sont les plus usitées. Sachez qu’il existe d’autres règles syntaxiques, mais elles ne sont pas prises en compte par tous les robots (par ceux de Google, oui). Parmi elles, on trouve :

  • Allow : permet l’exploration d’un sous-répertoire ou d’une page dans un répertoire non autorisé (Disallow).
  • Sitemap : indique aux robots où se trouve votre sitemap. Cette ligne est facultative. Je vous recommande plutôt de soumettre votre sitemap aux moteurs de recherche via un outil dédié, comme la Google Search Console. Je vous explique comment faire dans cet article.

Pour être certain que vous compreniez bien, je vous propose d’aller un peu plus loin en vous proposant 3 nouveaux exemples.

Comment bloquer l’accès à un répertoire

User-agent: *
Disallow: /wp-admin/

Je demande à tous les robots de ne pas explorer la totalité des contenus du répertoire wp-admin.

Comment bloquer l’accès à une page ou à un fichier

User-agent: *
# Pas d'indexation de la page de connexion
Disallow: /wp-login.php
# Pas d'indexation d'une photo
Disallow: /maphoto.jpg

Dans cet exemple, je demande à tous les robots de ne pas indexer la page de connexion à WordPress, ainsi qu’une photo.

Vous pouvez aussi voir l’apparition du symbole #. Il introduit un commentaire. Le texte situé derrière ne sera donc pas pris en compte.

Ayez aussi en tête que les règles sont sensibles à la casse.

Par exemple, Disallow: /maphoto.jpg correspond à http://www.monsite.fr/maphoto.jpg, mais pas à http://www.monsite.fr/Maphoto.jpg

Comment créer différentes règles pour différents robots

User-agent: *
Disallow: /wp-login.php
User-agent: Googlebot
Disallow: /

Les règles sont toujours traitées de haut en bas. Rappelez-vous, elles commencent toujours par l’instruction User-agent.

Dans la première, je demande à tous les robots de ne pas indexer la page de connexion (wp-login.php).

Dans la seconde, je demande spécifiquement au robot d’exploration de Google (Googlebot), de ne pas explorer la totalité de mon site.

Comment autoriser l’accès à un fichier dans un répertoire bloqué

User-agent: *
Disallow: /wp-admin
Allow: wp-admin/widgets.php

On se sert de l’instruction Allow. Dans cet exemple, tout le répertoire wp-admin est bloqué, sauf le fichier widgets.php

III – Comment vérifier le bon fonctionnement de votre fichier robots.txt?

Pour être sûr que votre fichier soit correctement paramétré, vous pouvez le vérifier et le valider sur la Google Search Console, un outil gratuit et incontournable pour gérer le référencement de votre site (entre autres).

Connectez-vous à votre Tableau de bord et, dans l’onglet Exploration, sélectionnez Outil de test du fichier robots.txt (vous devez avoir ajouté votre site web au préalable).

Le fichier <code>robots.txt</code> de WordPress peut se vérifier sur la Google Search Console

Test du fichier sur la Google Search Console

Une fois que vous avez entré les instructions de votre choix dans l’éditeur prévu à cet effet, vous pouvez tester votre fichier.

Si tout va bien, vous devriez avoir le message suivant en bas de l’éditeur.

Erreurs

Enfin, pensez à envoyer le fichier.

IV – Comment optimiser votre fichier robots.txt sur WordPress ?

Que faut-il mettre, ou ne pas mettre dans son fichier robots.txt ?

Existe-t-il un modèle prédéfini que l’on pourrait adapter sur chaque site ?

La réponse : à la fois oui et non.

En effet, chaque site est différent et il serait difficile de faire un copier-coller de ce que proposent Pierre, Paul ou Jacques sur leurs sites. Leurs problématiques seront très probablement différentes de celles que vous avez sur le vôtre.

Malgré tout, on peut vous donner un fichier robots.txt de base qui conviendra à la plupart des sites :

User-agent: *

# On empêche l'indexation des dossiers sensibles
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.gz$

# On désindexe la page de connexion (contenu inutile)
Disallow: /wp-login.php

Pour tout vous dire, même au sein de la communauté WordPress, figurez-vous qu’il est impossible de mettre tout le monde d’accord. Les avis divergent.

Certains, comme Joost de Valk, le PDG de Yoast, prônent le minimalisme. C’est d’ailleurs plutôt la tendance actuelle.

En substance, ils estiment notamment que comme Google est capable d’interpréter votre site dans sa globalité (notamment le code CSS et Javascript, et plus seulement le HTML), il ne faut pas lui bloquer l’accès aux fichiers CSS et Javascript pour qu’il puisse voir vos pages dans leur intégralité. Sinon, cela pourrait affecter votre SEO.

Pour en être sûr, vous pouvez utiliser le lien Explorer comme Google sur la Search Console. Cela permet de voir comment un Googlebot (robot de Google) voit votre page.

Explorer comme Google

Sur mon site, ça a l’air de fonctionner

Si votre site n’a pas son apparence habituelle (ex : certains styles ne sont pas appliqués), c’est probablement que certaines règles de votre fichier robots.txt sont à revoir.

Mais revenons-en à Yoast. Regardez leur fichier robots.txt :

Le fichier <code>robots.txt</code> de Yoast SEO

Comme vous pouvez le remarquer, quasiment rien n’est bloqué ! La seule chose interdite d’exploration pour les robots est l’un de leurs outils maison appelé Yoast Suggest.

D’autres préconisent une approche plus large et “sécuritaire” pour votre site. Ils conseillent, entre autres :

  • d’empêcher l’accès à deux répertoires-clés de WordPress, comme le dossier wp-admin (où se trouvent les éléments d’administration de votre site web) et le dossier wp-includes (qui abrite tous les fichiers de WordPress).
  • de désindexer la page de connexion (wp-login.php).
  • ou encore de désindexer le fichier readme.html, car il contient la version de WordPress que vous utilisez.

Bref, pas simple de s’y retrouver, au milieu de toutes ses recommandations !

En résumé, je vous conseille :

  • de vous en tenir au strict minimum si vous n’êtes pas sûr de ce que vous faites. Sinon, les conséquences sur votre SEO pourraient s’avérer fâcheuses.
  • de vérifier que votre fichier n’ait pas d’erreurs sur la Search Console avant de le soumettre.

Conclusion

Comme vous avez pu le voir, le fichier robots.txt est un outil intéressant pour votre SEO. Il permet de signaler aux robots des moteurs de recherche ce qu’ils doivent explorer, et ne pas explorer.

Mais il doit être manipulé avec précaution. Une mauvaise configuration peut amener à une désindexation totale de votre site (ex : si vous utilisez Disallow: /). Alors, prudence !

Warning

Pour terminer cet article, je vous propose de faire un récapitulatif. Tout au long de ces lignes, je vous ai notamment détaillé :

  • ce qu’était le fichier robots.txt
  • comment l’installer sur WordPress
  • comment optimiser votre fichier robots.txt sur WordPress pour le SEO

Maintenant, à vous de jouer. Dites-moi si vous utilisez ce type de fichier et comment vous le configurez.

Partagez-moi vos remarques et retours d’expériences dans les commentaires.

Et si vous estimez que cet article peut être utile à d’autres personnes, partagez-le sur les réseaux sociaux.

Si vous avez apprécié cet article, inscrivez-vous à la newsletter

Recevez gratuitement les prochains articles et accédez à des ressources exclusives. Plus de 20 000 personnes l'ont fait, pourquoi pas vous ?

C'est parti, je m'inscris !

8 commentaires Ajoutez le vôtre

  1. Hey salut,

    Merci pour cet article. J’ai retenu qu’on pouvait laisser faire Yoast.
    J’ai apprécié le lien vers l’article sur le crawl et l’impact SEO, étant donné que je cherche à générer plus de trafic vers mon blog.
    J’attends avec impatience la semaine du référencement.

    Répondre
  2. Bon article. Pour ma part personnelle j’ai choisi la configuration minimale pour mon robot.txt ã l’instar de ce que préconise Yahoo, sachant que pour l’aspect sécurisation du site je fais confiance à Julio Pottier

    Répondre
  3. Merci ! très intéressant
    Cet article tombait à pic!

    Répondre
  4. Super article
    très clairement expliqué même pour des débutants
    bravo à toute l’équipe

    Répondre
  5. Ah ben voilà ! Je vous avait interpellé sur twitter au sujet d’un article qui n’était pas encore écrit !! J’suis trop fort…

    Merci en tout cas pour cet article que j’avais deviné donc 🙂

    Répondre
  6. Bonjour,
    On peut mettre le ligne pour sitemap dans robots.txt et aussi le mettre dans Google Search Console, ça ne créer pas de conflit, si ?

    Le fichier robots.txt du site WP Marmite, a plus de ligne
    https://wpmarmite.com/robots.txt

    Il ne convient pas pour tous les sites (je ne prends pas en compte la ligne sitemap) ?

    Merci

    Répondre
    • Bonjour, le sitemap dans le robots.txt ne sert à rien si tu le mets dans la search console (ce que je te conseille), et le nombre de ligne dépend vraiment du site en lui même après. Ne copie pas forcément celui de la Marmite pour ton site, utilises plutôt celui qu’on donne qui convient à tous les sites.

  7. super intéressant. merci

    Répondre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

La Marmite ne peut malheureusement pas fournir de support. Merci d'en tenir compte dans votre commentaire 😉

Si vous ne lui en voulez pas, donnez-lui un j'aime sur Facebook :



velit, elit. ultricies Lorem lectus Sed
75 Partages
Partagez53
Tweetez22
Partagez