Qu’est-ce que robots.txt ? Explication de son objectif et comment l’écrire.

2024.06.12

contents

1 Qu’est-ce que robots.txt ?
2 Comment vérifier robots.txt
3 Questions Fréquentes sur robots.txt
4 Résumé

Si vous êtes administrateur web, vous avez probablement entendu parler de robots.txt. Ce fichier indique aux robots des moteurs de recherche quelles pages explorer et lesquelles éviter. Configurer correctement robots.txt peut aider à l’optimisation pour les moteurs de recherche (SEO) et gérer efficacement l’indexation de votre site web.

Dans cet article, nous expliquerons l’objectif de robots.txt et comment le rédiger.

Qu’est-ce que robots.txt ?

Robots.txt est un fichier utilisé pour empêcher les robots d’indexation d’accéder à certains contenus spécifiques. L’exploration, effectuée par les robots des moteurs de recherche, implique de parcourir les sites Internet pour collecter des informations, un mécanisme essentiel pour rassembler des données qui sont ensuite stockées sur les pages de données des moteurs de recherche.

Typiquement, un site contient à la fois du contenu important et moins important. Robots.txt vous permet de contrôler une partie de cette exploration, en la concentrant sur le contenu le plus critique.

Histoire de robots.txt

Robots.txt a été conçu en 1994 par Martijn Koster, qui travaillait pour le moteur de recherche WebCrawler. Initialement, il était fourni comme un moyen pour les opérateurs de sites web de contrôler l’accès des robots d’indexation.

En 1997, le standard d’exclusion des robots (également connu sous le nom de Protocole d’exclusion des robots) a été établi, rendant robots.txt plus couramment utilisé. Aujourd’hui, sur la base de ce standard, les opérateurs de sites web peuvent instruire les robots sur les pages à éviter, faisant de robots.txt un outil indispensable.

**Différence entre noindex et robots.txt**
Un paramètre souvent confondu avec robots.txt est l’utilisation de noindex. Noindex est un paramètre qui empêche les moteurs de recherche d’indexer (de stocker des informations sur des pages de données), mis en œuvre via une balise meta dans le code HTML.

Ainsi, il existe des différences significatives dans les objectifs et les méthodes de configuration entre les deux :

Objet	robots.txt	noindex
Format	Fichier texte	Élément Meta ou balise HTTP
Utilisation	Paramètre pour tout le site	Paramètre pour une page
Objectif	Refuser l’exploration	Refus d’indexation

Notez que noindex empêche l’indexation, donc les pages n’apparaîtront pas dans les résultats de recherche. Cependant, robots.txt refuse l’exploration, ce qui signifie que les pages pourraient encore apparaître dans les résultats de recherche.

Objectif de robots.txt

L’objectif principal de robots.txt est de refuser l’exploration, mais il joue également divers rôles, tels que l’optimisation de l’explorabilité et la soumission de sitemaps XML. Comme alternative à noindex, qui ne peut pas être utilisé pour le contenu non HTML, robots.txt est essentiel.

Voici les objectifs de robots.txt :

Empêcher l’exploration de pages spécifiques

L’objectif principal de robots.txt est de refuser l’exploration de certains contenus, applicable à différents niveaux, comme la page ou le répertoire.

Il est utile pour des pages comme celles non finies, celles nécessitant une connexion, ou le contenu exclusif aux membres. Empêcher le contenu inutile d’être exploré peut éviter des effets SEO négatifs potentiels.

Refuser l’exploration de fichiers d’image et vidéo : Bien que les images et les vidéos soient fréquemment utilisées, elles ne peuvent pas être définies avec noindex car elles ne sont pas en HTML. Cependant, robots.txt vous permet de refuser l’exploration pour les fichiers non HTML. Il est souvent utilisé comme une alternative lorsque noindex n’est pas applicable.

Optimiser l’explorabilité

Robots.txt peut diriger les robots vers un contenu important, optimisant l’explorabilité. Pour les sites comportant de nombreuses pages, comme les sites e-commerce, toutes les pages peuvent ne pas être explorées. En utilisant robots.txt pour refuser l’exploration de pages moins critiques, vous vous assurez que les pages importantes sont explorées, augmentant potentiellement la fréquence et le volume global d’exploration du site.

Soumettre des sitemaps XML

Robots.txt peut inclure des sitemaps XML, informant les moteurs de recherche sur le sitemap. Bien que vous puissiez soumettre des sitemaps via des outils comme Google Search Console ou Bing Webmaster Tools, robots.txt est une méthode pratique lorsque de tels outils ne sont pas disponibles.

Comment écrire robots.txt

Lors de la configuration de robots.txt, vous suivez des éléments spécifiques et saisissez le contenu pertinent. Il y a principalement quatre éléments à décrire, et pour des exemples de codes spécifiques, veuillez vous référer à « Google Search Central ».

Voici comment écrire robots.txt :

User-Agent

User-Agent est utilisé pour spécifier le robot que vous souhaitez contrôler.

Contenu à écrire comprend :

Tous les robots : * (astérisque)
Le robot de Google : Googlebot
Robot pour smartphones : Googlebot
Le robot d’AdSense : Mediapartners-Google
Le robot de recherche d’images de Google : Googlebot-Image

La méthode de base consiste à entrer ‘*’ pour tous les robots. Si vous souhaitez refuser l’exploration par Google, entrez ‘Googlebot’ pour le robot de Google.

Disallow

Disallow est utilisé pour spécifier les pages ou les répertoires dont l’exploration doit être refusée. En entrant le chemin de l’URL, vous pouvez configurer le refus limité de l’exploration.

– Site entier : « Disallow: / »
– Spécifier un répertoire : « Disallow: /abc9999/ »
– Spécifier une page : « Disallow: /abc9999.html/ »

Entrez le chemin de l’URL dans « abc9999 ».
Rappelez-vous le contenu pour Disallow car c’est un élément fréquemment utilisé.

Allow

Allow est utilisé pour permettre l’exploration, le rôle opposé de Disallow. Cependant, normalement, l’exploration est autorisée même sans saisir d’éléments Allow. Par conséquent, son utilisation est moins fréquente.

Vous utilisez principalement Allow lorsque vous avez entré Disallow mais souhaitez autoriser l’exploration pour des pages ou des répertoires spécifiques.

Par exemple :

User-agent: *
Disallow: /sample/
Allow: /sample/abc9999.html

Dans le cas ci-dessus, il autorise l’exploration pour le répertoire ‘sample’ mais permet uniquement la page ‘abc9999.html’.

Sitemap

Le sitemap, comme son nom l’indique, est utilisé pour soumettre des plans de site (sitemaps).

L’ajout d’un sitemap est optionnel, mais le faire a tendance à augmenter la vitesse d’exploration. Il est donc recommandé de l’entrer si vous souhaitez améliorer l’explorabilité.

Contenu à écrire :

Sitemap: http://abc9999.com/sitemap.xml

Entrez le chemin du sitemap pour « abc9999.com ». Si plusieurs chemins de sitemap existent, saisissez-les sur des lignes séparées.

Configuration de robots.txt

Pour configurer robots.txt, mettez en œuvre les méthodes suivantes :

Utilisation de plugins
Téléchargement direct

Pour les sites WordPress, il est recommandé d’utiliser des plugins qui permettent des paramètres faciles. Voici comment configurer robots.txt à l’aide de plugins.

Utilisation de plugins

Pour les sites WordPress, vous pouvez facilement configurer robots.txt en utilisant le plugin « All in One SEO Pack ».

La configuration peut être faite comme suit :

1. Téléchargez et activez « All in One SEO Pack. »
2. Affichez l’écran de paramétrage « Robots.txt » depuis le panneau d’administration de WordPress sous « Articles. »
3. Activez toutes les fonctionnalités sous « Fonction. »

Après ces paramètres, ce qui suit sera écrit au bas de « Créer un fichier Robots.txt » :

User-agent: *
Disallow: /wp/wp-admin/
Allow: /wp/wp-admin/admin-ajax.php
Sitemap: https://sample.com/sitemap.xml

Ensuite, modifiez selon la section « Comment écrire » précédemment mentionnée.

Téléchargement direct

Une méthode commune à tous les sites est de télécharger directement dans le répertoire supérieur du site.

Conditions spécifiques :

Format de fichier : texte non formaté encodé en « UTF-8 »
Taille de fichier : maximum 500KB
Les sous-domaines sont acceptables, mais notez qu’ils ne seront pas détectés dans les sous-répertoires.

Comment vérifier robots.txt

Bien que vous puissiez directement vérifier le fichier robots.txt, l’utilisation d’outils est recommandée pour éviter de négliger ou de faire des erreurs. « robots.txt Tester » est un outil gratuit fourni par Google qui permet de vérifier facilement les erreurs en entrant simplement une URL.

Voici comment utiliser « robots.txt Tester » pour vérifier robots.txt :

Vérification de la syntaxe

La vérification de la syntaxe assure que le contenu du fichier robots.txt est grammaticalement correct. Vous pouvez vérifier la syntaxe comme suit :

1. Accédez à « robots.txt Tester. »
2. Entrez le chemin URL pertinent dans le champ de saisie en bas de l’écran et cliquez sur « Test. »
3. Les résultats du test seront affichés.

Avant de tester, assurez-vous que votre site est correctement lié. Si votre site n’est pas reflété, cela signifie que le fichier robots.txt n’est pas correctement configuré. Dans ce cas, réinstallez le fichier robots.txt puis effectuez le test.

Correction de la syntaxe

Après avoir vérifié les résultats du test dans « robots.txt Tester », vérifiez s’il y a des erreurs.

Si des erreurs sont trouvées, commencez par faire des corrections dans « robots.txt Tester. » Cliquez sur l’emplacement de l’erreur et saisissez directement le texte pour changer la syntaxe. Continuez à modifier le contenu jusqu’à ce qu’il n’y ait plus d’erreurs.

Cependant, notez que faire des corrections dans « robots.txt Tester » ne change pas le fichier robots.txt réel. Après avoir identifié les erreurs, vous devez modifier le fichier réel.

Répétez le processus de test mentionné ci-dessus, et si aucune erreur ne se produit, la vérification est complète.

Points à noter lors de la configuration de robots.txt

Bien que la configuration de robots.txt soit relativement simple, car elle implique la saisie d’éléments selon des critères spécifiques, il y a certains aspects facilement erronés dont il faut être prudent :

Ne l’utilisez pas dans l’intention de refuser l’indexation.
Ne l’utilisez pas pour la stratégie de contenu dupliqué.
Cela ne restreint pas l’accès des utilisateurs.
Mettez à jour le robots.txt.

Expliquons chaque point :

Pas pour le refus d’indexation

Une erreur courante est d’utiliser robots.txt avec l’intention de refuser l’indexation. Rappelez-vous, robots.txt est pour refuser l’exploration, pas l’indexation. Pour refuser l’indexation, utilisez noindex. Une mauvaise utilisation peut entraîner des erreurs comme « affichage des résultats de recherche sans description du site ».

Pas pour la stratégie de contenu dupliqué

De même, n’utilisez pas robots.txt comme stratégie pour le contenu dupliqué. Si indexé, les moteurs de recherche le reconnaîtront comme contenu dupliqué. Pour le contenu dupliqué, utilisez « noindex » ou la normalisation des URL.

Ne restreint pas l’accès des utilisateurs

Utiliser robots.txt pour restreindre l’accès des utilisateurs est un malentendu. Cela n’empêche pas l’accès des utilisateurs. Si l’URL est disponible en ligne, l’accès est possible même si l’exploration est refusée. Pour la restriction d’accès, des paramètres séparés sont nécessaires.

Mise à jour de robots.txt

Lors du renouvellement de votre site web ou de la modification des URL des pages, il est nécessaire de mettre à jour robots.txt de manière appropriée. Cela affecte à la fois la fourniture d’informations précises aux moteurs de recherche et le SEO de votre site web.

Par exemple, si des pages avec d’anciennes URL sont indexées, configurez une redirection 301 vers les nouvelles URL et reflétez ces changements dans robots.txt. Cela garantit que les moteurs de recherche explorent correctement les nouvelles pages sans impacter négativement le SEO de votre site web.

De plus, modifiez les paramètres de robots.txt lors de la suppression ou de l’ajout de pages.

Questions Fréquentes sur robots.txt

Voici quelques questions courantes et réponses à propos de robots.txt :

Q : Où doit-on placer le fichier robots.txt ?

R : Placez le fichier robots.txt dans le répertoire racine de votre site web. Le répertoire racine fait référence au répertoire de niveau supérieur d’un site web. Pour plus de détails, référez-vous à la page sur la création d’une structure de répertoire favorable au SEO. Évitez de placer robots.txt en dehors du répertoire racine, car il pourrait ne pas être correctement exploré par les moteurs de recherche.

Q : Quels problèmes peuvent survenir à cause de paramètres incorrects de robots.txt ?

R : Des paramètres incorrects de robots.txt peuvent empêcher les moteurs de recherche d’explorer les pages de votre site web. Par exemple, spécifier les mauvaises directives peut entraîner un refus d’exploration par les moteurs de recherche, impactant les classements SEO.

Q : robots.txt affecte-t-il le SEO ?

R : Configurer correctement robots.txt peut avoir un impact positif sur le SEO en spécifiant les pages qui n’ont pas besoin d’être explorées. À l’inverse, des paramètres inappropriés peuvent entraîner une baisse des classements SEO.

Q : Utilise-t-on robots.txt pour cacher des pages ?

R : robots.txt est utilisé pour spécifier les pages ou les répertoires à exclure de l’exploration. Il n’est pas destiné à cacher des pages. Pour cacher des pages, utilisez des balises meta avec l’attribut nofollow, et non robots.txt.

Résumé

Cet article a couvert les bases de robots.txt, de son objectif et sa méthode de rédaction aux paramètres spécifiques. Bien qu’il soit facile de confondre robots.txt avec noindex, leurs effets diffèrent considérablement. Un mauvais usage peut entraîner la perte de bénéfices potentiels, il est donc crucial d’utiliser robots.txt selon son but prévu. Étant donné que la configuration de robots.txt est relativement simple, référez-vous à cet article pour obtenir des orientations et intégrez-le dans vos pratiques.

Supervised by

Mathieu　Julien VILLARD, PDG, Admano Co., Ltd.

Diplômé du département de japonais de l’Université de Grenoble en France, titulaire d’un Brevet de technicien supérieur MCO (Management des unités commerciales), ainsi que d’un Diplôme Européen d’Études Supérieures en Marketing, chargé des relations publiques japonaises dans le secteur nucléaire pour une entreprise française, possède une profonde connaissance de la culture et de l’histoire japonaises. Spécialisé en codage et technique SEO . Actuellement en poste à la succursale française d’Admano.