Fonctionnement des moteurs de recherche: exploration, indexation et classement

COMMENT FONCTIONNENT LES MOTEURS DE RECHERCHE: RAWLING, INDEXING ET CLASSEMENT

D’abord, montrez-vous.

Comme nous l’avons mentionné au chapitre 1 , les moteurs de recherche sont des répondeurs. Ils existent pour découvrir, comprendre et organiser le contenu d’Internet afin d’offrir les résultats les plus pertinents aux questions que se posent les chercheurs.

Pour apparaître dans les résultats de recherche, votre contenu doit d’abord être visible par les moteurs de recherche. C’est sans doute la pièce la plus importante du puzzle SEO: si votre site ne peut pas être trouvé, vous ne pourrez jamais apparaître dans les SERPs (Search Engine Results Page).

Comment fonctionnent les moteurs de recherche?
Les moteurs de recherche ont trois fonctions principales:

Exploration: parcourez Internet à la recherche de contenu, en recherchant le code / contenu de chaque URL trouvée.
Index: stockez et organisez le contenu trouvé pendant le processus d’exploration. Une fois qu’une page est dans l’index, elle est en cours d’exécution pour être affichée à la suite de requêtes pertinentes.
Classement: fournissez les éléments de contenu qui répondront le mieux à la requête d’un chercheur, ce qui signifie que les résultats sont classés du plus pertinent au moins pertinent.
Qu’est-ce que l’exploration des moteurs de recherche?
L’exploration est le processus de découverte dans lequel les moteurs de recherche envoient une équipe de robots (appelés robots d’exploration ou araignées) pour trouver du contenu nouveau et mis à jour. Le contenu peut varier – il peut s’agir d’une page Web, d’une image, d’une vidéo, d’un PDF, etc. – mais quel que soit le format, le contenu est découvert par des liens.

Que veut dire ce mot?
Vous rencontrez des problèmes avec l’une des définitions de cette section? Notre glossaire SEO a des définitions spécifiques à chaque chapitre pour vous aider à rester à jour.

Voir les définitions du chapitre 2
Les robots des moteurs de recherche, également appelés araignées, explorent de page en page pour trouver du contenu nouveau et mis à jour.
Googlebot commence par récupérer quelques pages Web, puis suit les liens sur ces pages Web pour trouver de nouvelles URL. En sautant sur ce chemin de liens, le robot d’exploration est capable de trouver un nouveau contenu et de l’ajouter à son index appelé Caffeine – une énorme base de données d’URL découvertes – pour être récupéré plus tard lorsqu’un chercheur cherche des informations indiquant que le contenu de cette URL est un bon match pour.

Qu’est-ce qu’un index de moteur de recherche?
Les moteurs de recherche traitent et stockent les informations qu’ils trouvent dans un index, une énorme base de données de tout le contenu qu’ils ont découvert et qu’ils jugent assez bon pour servir aux chercheurs.

Classement des moteurs de recherche
Lorsqu’une personne effectue une recherche, les moteurs de recherche parcourent leur index à la recherche d’un contenu hautement pertinent, puis ordonne ce contenu dans l’espoir de résoudre la requête du chercheur. Cet ordre des résultats de recherche par pertinence est appelé classement. En général, vous pouvez supposer que plus un site Web est classé, plus le moteur de recherche pense que ce site est pertinent pour la requête.

Il est possible de bloquer les robots des moteurs de recherche sur une partie ou la totalité de votre site, ou de demander aux moteurs de recherche d’éviter de stocker certaines pages dans leur index. Bien qu’il puisse y avoir des raisons de le faire, si vous voulez que votre contenu soit trouvé par les chercheurs, vous devez d’abord vous assurer qu’il est accessible aux robots d’exploration et qu’il est indexable. Sinon, c’est aussi bien qu’invisible.

À la fin de ce chapitre, vous aurez le contexte dont vous avez besoin pour travailler avec le moteur de recherche, plutôt que contre lui!

En SEO, tous les moteurs de recherche ne sont pas égaux
De nombreux débutants s’interrogent sur l’importance relative de certains moteurs de recherche. La plupart des gens savent que Google détient la plus grande part de marché, mais quelle est l’importance de l’optimisation pour Bing, Yahoo et autres? La vérité est que malgré l’existence de plus de 30 principaux moteurs de recherche Web , la communauté SEO ne prête vraiment attention qu’à Google. Pourquoi? La réponse courte est que Google est l’endroit où la grande majorité des gens recherchent sur le Web. Si nous incluons Google Images, Google Maps et YouTube (une propriété de Google), plus de 90% des recherches sur le Web se produisent sur Google, soit près de 20 fois Bing et Yahoo combinés.

Exploration: les moteurs de recherche peuvent-ils trouver vos pages?
Comme vous venez de l’apprendre, vous assurer que votre site est exploré et indexé est une condition préalable pour apparaître dans les SERPs. Si vous avez déjà un site Web, il peut être judicieux de commencer par voir le nombre de vos pages dans l’index. Cela vous permettra de savoir si Google explore et trouve toutes les pages que vous souhaitez, et aucune que vous ne le faites.

Une façon de vérifier vos pages indexées est “site: votredomaine.com”, un opérateur de recherche avancée . Rendez-vous sur Google et tapez “site: votredomaine.com” dans la barre de recherche. Cela renverra les résultats que Google a dans son index pour le site spécifié:

Une capture d’écran d’un site: recherche moz.com dans Google, montrant le nombre de résultats sous le champ de recherche.
Le nombre de résultats affichés par Google (voir «Environ XX résultats» ci-dessus) n’est pas exact, mais il vous donne une idée précise des pages indexées sur votre site et de la manière dont elles apparaissent actuellement dans les résultats de recherche.

Pour des résultats plus précis, surveillez et utilisez le rapport de couverture de l’index dans Google Search Console. Vous pouvez vous inscrire pour un compte Google Search Console gratuit si vous n’en avez pas actuellement. Avec cet outil, vous pouvez soumettre des plans de site pour votre site et surveiller le nombre de pages soumises qui ont effectivement été ajoutées à l’index de Google, entre autres.

Si vous n’apparaissez nulle part dans les résultats de recherche, il existe plusieurs raisons possibles:

Votre site est tout nouveau et n’a pas encore été exploré.
Votre site n’est lié à aucun site Web externe.
La navigation de votre site rend difficile pour un robot de l’explorer efficacement.
Votre site contient du code de base appelé directives de robot d’exploration qui bloque les moteurs de recherche.
Votre site a été sanctionné par Google pour des tactiques de spam.
Dites aux moteurs de recherche comment explorer votre site
Si vous avez utilisé Google Search Console ou l’opérateur de recherche avancée “site: domaine.com” et que vous constatez que certaines de vos pages importantes ne figurent pas dans l’index et / ou que certaines de vos pages sans importance ont été indexées par erreur, vous pouvez procéder à des optimisations. mettre en œuvre pour mieux orienter Googlebot comment vous souhaitez que votre contenu Web soit analysé. Expliquer aux moteurs de recherche comment explorer votre site peut vous donner un meilleur contrôle de ce qui se termine dans l’index.

La plupart des gens pensent à s’assurer que Google peut trouver leurs pages importantes, mais il est facile d’oublier qu’il y a probablement des pages que vous ne voulez pas que Googlebot trouve. Ceux-ci peuvent inclure des éléments tels que les anciennes URL au contenu léger, les URL en double (comme les paramètres de tri et de filtrage pour le commerce électronique), les pages de code promotionnel spéciales, les pages de test ou de test, etc.

Pour éloigner Googlebot de certaines pages et sections de votre site, utilisez le fichier robots.txt.

Robots.txt
Les fichiers Robots.txt sont situés dans le répertoire racine des sites Web (par exemple, votredomaine.com/robots.txt) et suggèrent quelles parties de votre site les moteurs de recherche doivent et ne doivent pas explorer, ainsi que la vitesse à laquelle ils explorent votre site. , via des directives robots.txt spécifiques .

Comment Googlebot traite les fichiers robots.txt
Si Googlebot ne trouve pas de fichier robots.txt pour un site, il procède à l’exploration du site.
Si Googlebot trouve un fichier robots.txt pour un site, il se conformera généralement aux suggestions et procédera à l’exploration du site.
Si Googlebot rencontre une erreur en essayant d’accéder au fichier robots.txt d’un site et ne peut pas déterminer s’il en existe un ou non, il n’explorera pas le site.
Optimisez le budget d’exploration!
Le budget d’exploration est le nombre moyen d’URL que Googlebot explorera sur votre site avant de partir.L’optimisation du budget d’exploration garantit donc que Googlebot ne perd pas de temps à parcourir vos pages sans importance au risque d’ignorer vos pages importantes. Le budget d’exploration est le plus important sur les très grands sites avec des dizaines de milliers d’URL , mais ce n’est jamais une mauvaise idée d’empêcher les robots d’accéder au contenu dont vous ne vous souciez certainement pas. Assurez-vous simplement de ne pas bloquer l’accès d’un robot d’exploration aux pages sur lesquelles vous avez ajouté d’autres directives, telles que les balises canoniques ou noindex. Si Googlebot est bloqué à partir d’une page, il ne pourra pas voir les instructions sur cette page.

Tous les robots Web ne suivent pas le fichier robots.txt. Les personnes avec de mauvaises intentions (par exemple, des grattoirs d’adresses e-mail) construisent des bots qui ne suivent pas ce protocole. En fait, certains acteurs malveillants utilisent des fichiers robots.txt pour trouver où vous avez localisé votre contenu privé. Bien qu’il puisse sembler logique de bloquer les robots d’exploration des pages privées telles que les pages de connexion et d’administration afin qu’ils n’apparaissent pas dans l’index, placer l’emplacement de ces URL dans un fichier robots.txt accessible au public signifie également que les personnes ayant une intention malveillante peut plus facilement les trouver. Il est préférable de NoIndexer ces pages et de les bloquer derrière un formulaire de connexion plutôt que de les placer dans votre fichier robots.txt.

Vous pouvez lire plus de détails à ce sujet dans la partie robots.txt de notre centre de formation .

Définition des paramètres d’URL dans GSC
Certains sites (les plus courants avec le commerce électronique) rendent le même contenu disponible sur plusieurs URL différentes en ajoutant certains paramètres aux URL. Si vous avez déjà effectué des achats en ligne, vous avez probablement affiné votre recherche via des filtres. Par exemple, vous pouvez rechercher des «chaussures» sur Amazon, puis affiner votre recherche par taille, couleur et style. Chaque fois que vous affinez, l’URL change légèrement:

https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id=32&highlight=green+dress&cat_id=1&sessionid=123$affid=43
Comment Google sait-il quelle version de l’URL servir aux internautes? Google fait un très bon travail pour déterminer l’URL du représentant par lui-même, mais vous pouvez utiliser la fonctionnalité Paramètres d’URL dans Google Search Console pour dire à Google exactement comment vous voulez qu’ils traitent vos pages. Si vous utilisez cette fonctionnalité pour indiquer à Googlebot “n’explorer aucune URL avec le paramètre __“, vous demandez essentiellement de masquer ce contenu à Googlebot, ce qui pourrait entraîner la suppression de ces pages des résultats de recherche. C’est ce que vous voulez si ces paramètres créent des pages en double, mais pas idéal si vous voulez que ces pages soient indexées.

Les robots d’exploration peuvent-ils trouver tout votre contenu important?
Maintenant que vous connaissez certaines tactiques pour vous assurer que les robots des moteurs de recherche restent à l’écart de votre contenu sans importance, découvrons les optimisations qui peuvent aider Googlebot à trouver vos pages importantes.

Parfois, un moteur de recherche pourra trouver des parties de votre site en explorant, mais d’autres pages ou sections peuvent être masquées pour une raison ou une autre. Il est important de vous assurer que les moteurs de recherche sont en mesure de découvrir tout le contenu que vous souhaitez indexer, et pas seulement votre page d’accueil.

Posez-vous la question suivante: le bot peut-il parcourir votre site Web, et pas seulement vers lui?

Une porte fermée, représentant un site qui peut être exploré mais pas traversé.
Votre contenu est-il caché derrière les formulaires de connexion?
Si vous demandez aux utilisateurs de se connecter, de remplir des formulaires ou de répondre à des sondages avant d’accéder à certains contenus, les moteurs de recherche ne verront pas ces pages protégées. Un robot d’exploration ne va certainement pas se connecter.

Utilisez-vous des formulaires de recherche?
Les robots ne peuvent pas utiliser les formulaires de recherche. Certaines personnes pensent que si elles placent un champ de recherche sur leur site, les moteurs de recherche pourront trouver tout ce que leurs visiteurs recherchent.

Le texte est-il masqué dans le contenu non textuel?
Les formulaires multimédias non textuels (images, vidéo, GIF, etc.) ne doivent pas être utilisés pour afficher le texte que vous souhaitez indexer. Bien que les moteurs de recherche améliorent la reconnaissance des images, rien ne garantit qu’ils pourront les lire et les comprendre pour l’instant. Il est toujours préférable d’ajouter du texte dans le balisage de votre page Web.

Les moteurs de recherche peuvent-ils suivre la navigation de votre site?
Tout comme un robot d’exploration a besoin de découvrir votre site via des liens d’autres sites, il a besoin d’un chemin de liens sur votre propre site pour le guider de page en page. Si vous souhaitez que les moteurs de recherche trouvent une page, mais qu’elle n’est liée à aucune autre page, elle est presque invisible. De nombreux sites font l’erreur critique de structurer leur navigation de manière inaccessible aux moteurs de recherche, ce qui entrave leur capacité à figurer dans les résultats de recherche.

Une représentation de la façon dont les pages liées peuvent être trouvées par les robots d’exploration, alors qu’une page non liée à la navigation de votre site existe en tant qu’île, indécouvrable.
Erreurs de navigation courantes qui peuvent empêcher les robots d’exploration de voir l’intégralité de votre site:
Avoir une navigation mobile qui affiche des résultats différents de la navigation de votre bureau
Tout type de navigation où les éléments de menu ne sont pas dans le HTML, comme les navigations activées pour JavaScript. Google s’est beaucoup amélioré dans l’exploration et la compréhension de Javascript, mais ce n’est toujours pas un processus parfait . Le moyen le plus sûr de s’assurer que quelque chose est trouvé, compris et indexé par Google est de le mettre dans le HTML.
La personnalisation, ou l’affichage d’une navigation unique vers un type spécifique de visiteur par rapport à d’autres, peut sembler être dissimulé à un robot d’exploration de moteur de recherche
Oublier de créer un lien vers une page principale de votre site Web via votre navigation – rappelez-vous que les liens sont les chemins que les robots d’exploration suivent pour accéder aux nouvelles pages!
C’est pourquoi il est essentiel que votre site Web ait une navigation claire et des structures de dossiers URL utiles.

Avez-vous une architecture d’information propre?
L’architecture de l’information est la pratique consistant à organiser et à étiqueter le contenu d’un site Web pour améliorer l’efficacité et la trouvabilité pour les utilisateurs. La meilleure architecture d’information est intuitive, ce qui signifie que les utilisateurs ne devraient pas avoir à réfléchir très fort pour parcourir votre site Web ou pour trouver quelque chose.

Utilisez-vous des sitemaps?
Un plan de site est exactement ce à quoi il ressemble: une liste d’URL sur votre site que les robots d’exploration peuvent utiliser pour découvrir et indexer votre contenu. L’un des moyens les plus simples de s’assurer que Google trouve vos pages les plus prioritaires consiste à créer un fichier conforme aux normes de Google et à le soumettre via Google Search Console. Bien que la soumission d’un plan du site ne remplace pas la nécessité d’une bonne navigation sur le site, cela peut certainement aider les robots d’exploration à suivre un chemin vers toutes vos pages importantes.

Assurez-vous que vous n’avez inclus que les URL que vous souhaitez indexer par les moteurs de recherche et assurez-vous de donner aux robots d’exploration des directions cohérentes. Par exemple, n’incluez pas d’URL dans votre sitemap si vous avez bloqué cette URL via le fichier robots.txt ou n’incluez pas d’URL dans votre sitemap qui sont des doublons plutôt que la version canonique préférée (nous fournirons plus d’informations sur la canonisation au chapitre 5 !).

En savoir plus sur les sitemaps XML
Si aucun autre site n’est lié à votre site, vous pourrez peut-être l’indexer en soumettant votre plan de site XML dans Google Search Console. Il n’y a aucune garantie qu’ils incluront une URL soumise dans leur index, mais cela vaut la peine d’essayer!

Les robots d’exploration obtiennent-ils des erreurs lorsqu’ils tentent d’accéder à vos URL?
Lors du processus d’exploration des URL de votre site, un robot d’exploration peut rencontrer des erreurs. Vous pouvez accéder au rapport “Erreurs d’exploration” de Google Search Console pour détecter les URL sur lesquelles cela pourrait se produire – ce rapport vous montrera les erreurs de serveur et les erreurs non trouvées. Les fichiers journaux du serveur peuvent également vous montrer cela, ainsi qu’un trésor d’autres informations telles que la fréquence d’exploration, mais comme accéder et disséquer les fichiers journaux du serveur est une tactique plus avancée, nous n’en discuterons pas en détail dans le Guide du débutant, bien que vous puissiez en savoir plus ici .

Avant de pouvoir faire quoi que ce soit de significatif avec le rapport d’erreurs d’exploration, il est important de comprendre les erreurs de serveur et les erreurs “non trouvées”.

Codes 4xx: lorsque les robots des moteurs de recherche ne peuvent pas accéder à votre contenu en raison d’une erreur du client
Les erreurs 4xx sont des erreurs client, ce qui signifie que l’URL demandée contient une mauvaise syntaxe ou ne peut pas être remplie. L’une des erreurs 4xx les plus courantes est l’erreur «404 – introuvable». Ceux-ci peuvent se produire en raison d’une faute de frappe d’URL, d’une page supprimée ou d’une redirection interrompue, pour ne citer que quelques exemples. Lorsque les moteurs de recherche atteignent un 404, ils ne peuvent pas accéder à l’URL. Lorsque les utilisateurs atteignent un 404, ils peuvent être frustrés et partir.

Codes 5xx: lorsque les robots des moteurs de recherche ne peuvent pas accéder à votre contenu en raison d’une erreur de serveur
Les erreurs 5xx sont des erreurs de serveur, ce qui signifie que le serveur sur lequel se trouve la page Web n’a pas répondu à la demande du moteur de recherche ou du moteur de recherche d’accéder à la page. Dans le rapport “Erreur d’exploration” de Google Search Console, un onglet est dédié à ces erreurs. Celles-ci se produisent généralement parce que la demande d’URL a expiré. Googlebot a donc abandonné la demande. Consultez la documentation de Google pour en savoir plus sur la résolution des problèmes de connectivité du serveur.

Heureusement, il existe un moyen d’indiquer aux chercheurs et aux moteurs de recherche que votre page a déménagé – la redirection 301 (permanente).

Créez des pages 404 personnalisées!
Personnalisez votre page 404 en ajoutant des liens vers des pages importantes de votre site, une fonction de recherche de site et même des informations de contact. Cela devrait réduire la probabilité que les visiteurs rebondissent sur votre site lorsqu’ils atteignent un 404.

En savoir plus sur les pages 404 personnalisées
Une représentation de la redirection d’une page vers une autre.

Supposons que vous déplaciez une page de example.com/young-dogs/ vers example.com/puppies/ . Les moteurs de recherche et les utilisateurs ont besoin d’un pont pour passer de l’ancienne URL à la nouvelle. Ce pont est une redirection 301.

Lorsque vous implémentez un 301: Lorsque vous n’implémentez pas de 301:
Lier l’équité Transfère l’équité du lien de l’ancien emplacement de la page vers la nouvelle URL. Sans 301, l’autorité de l’URL précédente n’est pas transmise à la nouvelle version de l’URL.
Indexage Aide Google à trouver et indexer la nouvelle version de la page. La présence d’erreurs 404 sur votre site à elle seule ne nuit pas aux performances de recherche, mais laisser les pages de classement / trafiquées 404 peut les faire sortir de l’index, avec le classement et le trafic qui les accompagnent – yikes!
Expérience utilisateur S’assure que les utilisateurs trouvent la page qu’ils recherchent. Permettre à vos visiteurs de cliquer sur des liens morts les mènera vers des pages d’erreur au lieu de la page prévue, ce qui peut être frustrant.
Le code d’état 301 lui-même signifie que la page a été déplacée de manière permanente vers un nouvel emplacement, évitez donc de rediriger les URL vers des pages non pertinentes – des URL où le contenu de l’ancienne URL ne vit pas réellement. Si une page est classée pour une requête et que vous la placez sur une URL avec un contenu différent, sa position de classement peut chuter car le contenu qui l’a rendue pertinente pour cette requête particulière n’existe plus. Les 301 sont puissants – déplacez les URL de manière responsable!

Vous avez également la possibilité de 302 rediriger une page, mais cela devrait être réservé aux déplacements temporaires et dans les cas où le passage de l’équité des liens n’est pas aussi grave. Les 302 sont un peu comme un détour routier. Vous siphonnez temporairement le trafic sur un certain itinéraire, mais ce ne sera pas comme ça pour toujours.

Attention aux chaînes de redirection!
Il peut être difficile pour Googlebot d’accéder à votre page s’il doit passer par plusieurs redirections. Google appelle ces «chaînes de redirection» et recommande de les limiter autant que possible. Si vous redirigez example.com/1 vers example.com/2, puis décidez plus tard de le rediriger vers example.com/3, il est préférable d’éliminer l’intermédiaire et de rediriger simplement example.com/1 vers example.com/3.

En savoir plus sur les chaînes de redirection
Une fois que vous vous êtes assuré que votre site est optimisé pour l’exploration, la prochaine étape consiste à vous assurer qu’il peut être indexé.

Indexation: comment les moteurs de recherche interprètent et stockent vos pages?
Une fois que vous vous êtes assuré que votre site a été exploré, la prochaine étape consiste à vous assurer qu’il peut être indexé. C’est vrai – ce n’est pas parce que votre site peut être découvert et exploré par un moteur de recherche qu’il sera stocké dans son index. Dans la section précédente sur l’exploration, nous avons expliqué comment les moteurs de recherche découvrent vos pages Web. L’index est l’endroit où vos pages découvertes sont stockées. Une fois qu’un robot a trouvé une page, le moteur de recherche la restitue comme un navigateur le ferait. Ce faisant, le moteur de recherche analyse le contenu de cette page. Toutes ces informations sont stockées dans son index.

Un robot stockant un livre dans une bibliothèque.
Lisez la suite pour en savoir plus sur le fonctionnement de l’indexation et sur la manière dont vous pouvez vous assurer que votre site fait partie de cette base de données très importante.

Puis-je voir comment un robot d’exploration Googlebot voit mes pages?
Oui, la version mise en cache de votre page reflétera un instantané de la dernière exploration de Googlebot.

Google explore et met en cache les pages Web à différentes fréquences. Des sites plus établis et bien connus qui publient fréquemment comme https://www.nytimes.com seront explorés plus fréquemment que le site Web beaucoup moins célèbre de l’agitation de Roger the Mozbot, http://www.rogerlovescupcakes.com ( si seulement c’était réel …)

Vous pouvez afficher à quoi ressemble votre version mise en cache d’une page en cliquant sur la flèche déroulante à côté de l’URL dans le SERP et en choisissant “En cache”:

Une capture d’écran de l’endroit où voir les résultats mis en cache dans les SERPs.
Vous pouvez également afficher la version texte de votre site pour déterminer si votre contenu important est analysé et mis en cache de manière efficace.

Des pages sont-elles déjà supprimées de l’index?
Oui, les pages peuvent être supprimées de l’index! Voici quelques-unes des principales raisons pour lesquelles une URL peut être supprimée:

L’URL renvoie une erreur “introuvable” (4XX) ou une erreur de serveur (5XX) – Cela peut être accidentel (la page a été déplacée et une redirection 301 n’a pas été configurée) ou intentionnelle (la page a été supprimée et 404 modifiée afin de le retirer de l’index)
Une balise Meta noindex a été ajoutée à l’URL – Cette balise peut être ajoutée par les propriétaires de sites pour demander au moteur de recherche d’omettre la page de son index.
L’URL a été sanctionnée manuellement pour avoir enfreint les consignes aux webmasters du moteur de recherche et, par conséquent, a été supprimée de l’index.
L’exploration de l’URL a été bloquée avec l’ajout d’un mot de passe requis pour que les visiteurs puissent accéder à la page.
Si vous pensez qu’une page de votre site Web qui figurait auparavant dans l’index de Google ne s’affiche plus, vous pouvez utiliser l’ outil d’inspection d’URL pour connaître l’état de la page ou utiliser Explorer comme Google, qui dispose d’une fonctionnalité “Demander l’indexation” pour soumettre des URL individuelles à l’index. (Bonus: l’outil “fetch” de GSC a également une option “render” qui vous permet de voir s’il y a des problèmes avec la façon dont Google interprète votre page).

Dites aux moteurs de recherche comment indexer votre site
Robots meta directives
Les directives méta (ou “balises méta”) sont des instructions que vous pouvez donner aux moteurs de recherche concernant la manière dont vous voulez que votre page Web soit traitée.

Vous pouvez indiquer aux robots des moteurs de recherche des choses comme «ne pas indexer cette page dans les résultats de recherche» ou «ne transmettre aucune équité de lien à des liens sur la page». Ces instructions sont exécutées via les balises Meta Robots dans le de vos pages HTML (le plus couramment utilisé) ou via le X-Robots-Tag dans l’en-tête HTTP.

Balise Meta Robots
La balise meta robots peut être utilisée dans le du code HTML de votre page Web. Il peut exclure tous ou certains moteurs de recherche. Voici les méta-directives les plus courantes, ainsi que les situations dans lesquelles vous pouvez les appliquer.

index / noindex indique aux moteurs si la page doit être explorée et conservée dans l’index d’un moteur de recherche pour la récupération. Si vous choisissez d’utiliser “noindex”, vous indiquez aux robots d’exploration que vous souhaitez que la page soit exclue des résultats de recherche. Par défaut, les moteurs de recherche supposent qu’ils peuvent indexer toutes les pages, il n’est donc pas nécessaire d’utiliser la valeur «index».

Utilisation possible: vous pouvez choisir de marquer une page comme “noindex” si vous essayez de découper des pages fines de l’index Google de votre site (par exemple, les pages de profil générées par l’utilisateur), mais que vous souhaitez toujours qu’elles soient accessibles aux visiteurs.
follow / nofollow indique aux moteurs de recherche si les liens de la page doivent être suivis ou non. «Suivre» permet aux robots de suivre les liens sur votre page et de transmettre l’équité des liens à ces URL. Ou, si vous choisissez d’employer “nofollow”, les moteurs de recherche ne suivront ni ne transmettront aucune équité de lien aux liens sur la page. Par défaut, toutes les pages sont supposées avoir l’attribut «suivre».

Quand vous pouvez utiliser: nofollow est souvent utilisé avec noindex lorsque vous essayez d’empêcher l’indexation d’une page et d’empêcher le robot d’exploration de suivre les liens sur la page.
noarchive est utilisé pour empêcher les moteurs de recherche d’enregistrer une copie en cache de la page. Par défaut, les moteurs conserveront des copies visibles de toutes les pages qu’ils ont indexées, accessibles aux chercheurs via le lien mis en cache dans les résultats de recherche.

Utilisation: si vous gérez un site de commerce électronique et que vos prix changent régulièrement, vous pouvez envisager la balise noarchive pour empêcher les internautes de voir des prix obsolètes.
Voici un exemple de balise meta robots noindex, nofollow:


Cet exemple exclut tous les moteurs de recherche d’indexer la page et de suivre les liens sur la page. Si vous souhaitez exclure plusieurs robots d’exploration, comme googlebot et bing par exemple, vous pouvez utiliser plusieurs balises d’exclusion de robot.

Les directives Meta affectent l’indexation, pas l’exploration
Googlebot doit explorer votre page pour voir ses méta-directives, donc si vous essayez d’empêcher les robots d’exploration d’accéder à certaines pages, les méta-directives ne sont pas le moyen de le faire. Les balises des robots doivent être explorées pour être respectées.

X-Robots-Tag
La balise x-robots est utilisée dans l’en-tête HTTP de votre URL, offrant plus de flexibilité et de fonctionnalités que les balises méta si vous souhaitez bloquer les moteurs de recherche à grande échelle, car vous pouvez utiliser des expressions régulières, bloquer les fichiers non HTML et appliquer des balises noindex à l’échelle du site. .

Par exemple, vous pouvez facilement exclure des dossiers entiers ou des types de fichiers (comme moz.com/no-bake/old-recipes-to-noindex):

Ensemble d’en-tête X-Robots-Tag “noindex, nofollow” </F

Leave a Reply

Your email address will not be published. Required fields are marked *