Un crawler, spider, ou robot d’exploration est un programme informatique conçu pour explorer les ressources du World Wide Web, de les examiner et de les organiser. C’est notamment l’un des principaux outils des moteurs de recherche pour constituer leur index et déterminer les URLs à proposer sur les requêtes des internautes. Pour mettre à jour cette bibliothèque digitale, les crawlers des moteurs de recherche sont constamment en train de parcourir la toile afin de trouver de nouvelles ressources.

D’ailleurs, grâce au développement des équipes de Google et consorts, les crawlers eux-même évoluent en permanence afin d’affiner leurs aptitudes à identifier des contenus pertinents, en fonction de critères toujours plus précis.

image copilot robot avec une pioche

Un bon référencement dépend donc grandement de la compréhension des principaux mécanismes d’un crawler, même si l’on ne cherche pas à faire du Black Hat SEO. On peut même se servir d’une technologie similaire pour auditer un site à optimiser ! Voici donc les éléments essentiels à savoir sur ces infatigables robots explorateurs…

Quels sont les différents types de crawlers ?

En général, on peut distinguer trois types de bots :

  • les crawlers d’exploration (ou d’indexation), évoqués en préambule, à savoir ceux qu’utilisent les moteurs de recherche. On appelle Googlebot et Bingbot les crawlers des deux moteurs les plus utilisés dans le monde. Ils ont la même fonction, à savoir de parcourir des milliards de page pour actualiser leurs index respectifs ;
  • les crawlers de diagnostic, notamment utilisés par les experts en référencement pour auditer un site à optimiser, en analysant sa structure, l’accès aux pages, le nombre et la qualité des backlinks, la durée de chargement, le duplicate content, etc.. Il existe aujourd’hui plein d’outils super performants à disposition des travailleurs SEO. Les plus connus sont Oncrawl, Deep Crawl, Screaming Frog, SEMRush ou encore Botify.
  • les crawlers de veille, qui vont permettre d’aller chercher certaines informations sur d’autres sites web, en particulier les données tarifaires dans le cadre du e-commerce. Ce peut également être pour collecter d’autres données comme des adresses e-mails ou des parcours utilisateurs. C’est ce que l’on nomme le datamining.

Dans la suite de cet article, nous allons nous concentrer sur la première catégorie de crawlers !

Que font concrètement les bots d’exploration ?

image copilot robot dans une bibliothèque

Les crawlers d’indexation suivent un protocole précis pour continuellement fouiller internet :

  • sélection et exploration des pages, en fonction des critères définis par le moteur (taille du site, mises à jour fréquentes, etc.). Les bots passent par les URLs de chaque page, examinent le code HTML et analysent tous les éléments du contenu proposé (titres, sous-titres, texte, les métadpnnées, images, liens, etc.) ;
  • mise en mémoire des URL des pages et indexation des données collectées afin que la page puisse être proposée aux internautes en fonction des mots-clés saisis. Les données sont organisées pour être accessibles le plus rapidement possible dans les SERPs, notamment par le biais des featured snippets et le classement par ordre de pertinence ;
  • vérification des mises à jour sur les pages connues, afin que l’index ne propose pas de ressources obsolètes ;
  • suivi des liens hypertexte pour accéder aux prochaines pages afin de parcourir le réseau tissé par le maillage interne et par les liens sortants vers des sites tiers. Plus il y a de bots qui passent par ces liens, plus il y a de transfert de linkjuice !

Nota Bene : le parcours des bots peut être influencé par une liste d’URLs prioritaires, par exemple celles que soumettent les propriétaires de domaine sur la Search Console. Ces derniers peuvent aller jusqu’à envoyer un sitemap.xml pour aider les bots à finaliser l’indexation de leur site.

Comment et pourquoi faciliter le crawl de Googlebot, Bingbot, et cie ?

En fait, chaque site internet dispose d’un budget crawl, car malgré la vitesse impressionnante des bots, il leur faut économiser le plus de temps possible pour tenir compte de la colossale masse d’information mise en ligne quotidiennement. Ainsi, chaque passage sur votre site est limité en temps et en requêtes DNS. Tous les sites ne disposent pas du même budget, mais les plus populaires sont avantagés.

image copilot robot qui présente une SERP dans un amphithéâtre

Quelle que soit la notoriété du vôtre, vous pouvez optimiser votre budget crawl en rendant votre domaine “crawler-friendly. L’idée est de tout faire pour alléger la tâche des bots d’exploration. Pour cela, voici quelques astuces courantes :

  • rendre vos pages les plus accessibles possible, avec une structure en silos thématique et une arborescence logique. Concernant la profondeur, tentez de suivre la règle des 3 clics maximum depuis la page d’accueil ;
  • optimiser votre maillage interne en tenant compte de la structure de votre site web (évitez les boucles et les pages thématiquement éloignées). Attention aux redirections inutiles ;
  • placer des liens externes vers des sites pertinents. Utilisez la balise rel=nofollow si vous préférez ne pas distribuer de linkjuice à la page de destination, et la balise rel=sponsored pour les hyperliens que l’on vous a achetés. Attention aux liens morts ;
  • générer un sitemap.xml pour lister l’ensemble des URLs de votre site et leurs interconnexions, puis soumettez-le à la Search Console ;
  • utiliser des fichiers robots.txt ou la balise “noindex” pour demander aux bots de ne pas explorer ou indexer des pages ou des sections entières de votre domaine
  • avoir des URLs uniformes et éviter le duplicate content, car les redondances sont souvent mal perçues par les crawlers. Si malgré tout vous avez des pages trop proches dans leur URL ou leur contenu, les balises canoniques vous permettent d’indiquer quelle est la page principale, donc celle à indexer ;
  • vérifier vos temps de chargement. Si besoin, réduisez la taille des images avec un format WebP ou des outils de compression de vos fichiers CSS, JavaScript et HTML. Choisissez un hébergeur web efficace et utilisez un CDN si besoin de booster votre bande passante.

Pour finir…

Les crawlers sont à l’origine du classement de vos pages dans les SERPs. En optimisant votre budget crawl, vous augmentez légèrement la rapidité d’indexation de vos pages, ce qui peut être un avantage sur la concurrence lorsque vous effectuez une mise à jour. À ce titre, vous pouvez réaliser une veille sur les évolutions des algorithmes des moteurs de recherche afin de prendre de vitesse les autres acteurs de votre secteur d’activité. Le reste du temps, gardez en priorité l’expérience de navigation des utilisateurs !