“50 milliards de pages web pour 1,93 milliard de sites web…”
Ce sont des chiffres impressionnants et pourtant, c’est bien la réalité. Alors, pour permettre aux moteurs de recherche de trouver ces pages web, il existe deux stratégies qu’il ne faut pas négliger : la crawlabilité et l’indexabilité d’un site Internet. Certes, les mots-clés et le contenu sont des piliers qu’il est nécessaire de conserver pour optimiser le référencement d’un site, mais ils ne sont pas les seuls. En outre, de simples problèmes liés à la crawlabilité et l’indexabilité, qui au premier abord peuvent paraître sans grande importance, peuvent avoir un impact conséquent sur le positionnement d’un site s’ils ne sont pas pris au sérieux. Par ailleurs, leur utilité est essentiellement due au fait que les robots de Google les incluent dans leur processus de navigation et de compréhension d’un site.
Alors, qu’est-ce que la crawlabilité et l’indexabilité au juste ? Comment les améliorer ? Parlons-en sans plus attendre.
Qu’est-ce que la crawlabilité et l’indexabilité précisément ?
Afin de mettre en place les bonnes stratégies pour optimiser la crawlabilité et l’indexabilité d’un site Internet, il faut d’abord parfaitement les comprendre.
Mais avant tout, il est bon de savoir que Google (ou tout autre moteur de recherche) utilise des robots d’indexation ou robots d’exploration qui ont pour but de suivre les liens sur Internet pour trouver et indexer des nouveaux contenus. Ce qui se résume au fait que c’est la capacité des robots de Google à avoir accès à des pages web et à les indexer. Ainsi, la crawlabilité détermine la possibilité d’accès au contenu d’une page par Google.
C’est lorsque les liens entre les pages ne sont pas viables que les soucis de crawlabilité émergent puisque les robots ne peuvent pas se rendre au contenu d’un site.
D’un autre côté, l’indexabilité est tout simplement la possibilité d’analyse et d’ajout d’une page à l’index d’un moteur de recherche. Une fois de plus, si l’indexation n’est pas au beau fixe sur un site, Google aura des problèmes à indexer les pages, et cela, même si le contenu créé semble être pertinent.
Quelles sont les 10 étapes à prendre en compte pour améliorer la crawlabilité et l’indexabilité ?
Afin d’adopter les bonnes stratégies pour améliorer ces deux points essentiels pour le référencement d’un site web, il est important d’identifier les éléments qui peuvent justement être un frein. Voyons cela de plus près.
1. Le temps de chargement des pages
Tout comme les internautes peuvent se montrer impatients lorsqu’une page prend trop de temps à charger, nous allons dire que ce sera aussi le cas pour les robots de Google. Ces derniers disposent d’ailleurs d’un certain délai pour évaluer la rapidité d’un site.
De ce fait, si un site web ne charge pas dans ce temps imparti, ils ne s’attarderont pas sur celui-ci. Autrement dit, le site ne sera pas exploré et indexé. Ce qui n’est bien évidemment pas excellent en termes de référencement. À cet effet, il est essentiel de vérifier la vitesse de chargement des pages. Google Search Console est un outil intéressant pour cela. D’autres solutions peuvent inclure :
- La mise à jour du serveur ;
- Un changement d’hébergeur ;
- La compression d’images, des CSS, de JavaScript et HTML ;
- Réduire ou éliminer les redirections (pour plus d’informations à ce sujet, cet article en parle en détail).
Google Lighthouse peut aussi vous aider à déterminer les éléments bloquants pour la rapidité de votre site.
2. Les liens internes
Les liens internes ainsi que la bonne structure d’un site web contribuent fortement à la réussite de ce dernier pour la simple raison que les moteurs de recherche auront plus de mal à l’explorer et à le comprendre. Par conséquent, il est indispensable de concevoir une structure logique pour le site et aider les robots de Google à en avoir une meilleure compréhension. De plus, lorsque les liens sont inclus dans le contenu des différentes pages, il conviendra également de vérifier si ces derniers ne sont pas brisés (fautes de frappe ou autre). N’hésitez pas à les vérifier régulièrement, notamment si vous avez récemment migré votre site ou changé sa structure. Mais pour en savoir plus sur l’utilisation des liens internes, nous vous recommandons de consulter cet article entièrement dédié à cela.
John Mueller de Google qualifie les liens internes comme étant des facteurs critiques pour le référencement.
3. Le Sitemap
L’utilisation du sitemap est une bonne stratégie si vous avez récemment modifié certains éléments (incluant le contenu) sur votre site et que vous souhaitez en informer Google.
Pour cela, il faudra passer par Google Search Console. Ce sitemap va alors servir de “feuille de route” puisqu’il inclut habituellement des liens directs vers chacune des pages d’un site. L’intérêt de procéder de cette façon, c’est que cela simplifie l’indexabilité qui, comme vous le verrez juste ici, est de moins en moins évidente à faire. Google peut donc explorer plusieurs pages en simultané.
4. La mise à jour des fichiers Robots.txt
Bien qu’il ne soit pas indispensable, le fichier Robots.txt est une technique pour indiquer à Google la manière dont vous souhaitez que le site soit exploré.
En ce qui concerne la crawlabilité, le fichier Robots.txt permet de réduire le nombre de pages que Google explore et indexe. De ce fait, si vous souhaitez en faire usage, il est préférable de se tourner vers un expert (à moins de savoir comment faire). S’il n’est pas correctement mis à jour, les conséquences peuvent être lourdes sur le référencement du site.
5. Vérifier la canonisation
Cela peut vous aider dans le sens où Google indexera uniquement les pages que vous souhaitez tout en évitant les doublons (voire les anciennes versions).
Pour cela, un outil d’inspection d’URL pourra vous être utile, vous pourrez plus facilement examiner certaines balises canoniques et donc les supprimer.
6. L’audit du site
Cette étape vous permettra d’avoir une idée précise du pourcentage de pages indexées par Google sur votre site.
Google Search Console Index est l’outil qui vous fournira ces informations. Par ailleurs, lorsque le taux d’indexabilité est de moins de 90 %, cela signifie qu’il y a probablement quelques erreurs à corriger. La vérification des URL non indexées depuis la Search Console peut vous être utile pour identifier le problème. L’outil d’inspection d’URL est également intéressant pour voir ce que les robots de Google perçoivent en examinant vos liens.
De même, pensez à faire un audit pour les pages nouvellement publiées afin d’être certain que celles-ci soient bien indexées. Enfin, pour améliorer l’audit de votre site, vous pourrez vous tourner vers d’autres outils tels que :
- Screaming Frog
- Semrush
- Ziptie
- Oncrawl
- Lumar.
7. Le contenu
Cela va de soi de dire qu’un contenu de mauvaise qualité ou dupliqué aura moins de chance d’être indexé par Google.
Ainsi, il conviendra de porter une attention particulière à ce que le contenu soit bien rédigé (sans les fautes de grammaire bien sûr !), unique et utile, mais aussi qu’il dispose d’une bonne autorité avec des liens externes. De plus, le contenu dupliqué est évidemment à proscrire. Globalement, pour améliorer la crawlabilité et l’indexabilité d’un site web, la qualité doit être présente dans le contenu.
8. Les redirections
“Une mauvaise gestion des redirections peut entraîner des failles affectant ainsi l’indexabilité d’un site web.”
Les chaînes de redirection en sont justement la preuve, puisque Google n’adhère pas vraiment à cette pratique. Du moins lorsqu’elles sont utilisées de manière excessive. À ce titre, le meilleur moyen de ne pas faire un usage à outrance des redirections, c’est de s’orienter vers des outils tels que Screaming Frog pour s’aider.
9. Les liens brisés
Les liens brisés sont extrêmement nuisibles au niveau de l’exploration d’un site. D’autant plus que l’impact est réel pour le référencement de ce dernier.
Vous pouvez bien évidemment faire cette vérification manuellement ou utiliser Google Search Console, Analytics ou Screaming Frog. Lorsque les liens brisés sont identifiés, vous pourrez les rediriger, les mettre à jour ou les enlever.
10. IndexNow
Globalement, IndexNow permet à Google d’être immédiatement averti de nouvelles URL ainsi que des modifications apportées à un site web.
Pour mettre en place ce processus, il faut générer une clé API. Puis, il est important de l’héberger dans votre répertoire avant de soumettre les URL au format recommandé pour que les robots de Google puissent à leur tour intervenir.