Dans une certaine mesure, nous dépendons tous de Google. Le moteur de recherche n°1 fait la pluie et le beau temps sur nos activités en décidant de bien nous positionner ou non, ou pire, de nous indexer ou non.
Il y a quelques années, n’importe quel site, même au contenu de faible qualité réussissait à s’indexer assez facilement (d’une façon générale) et dès qu’un nouveau contenu était mis en ligne, Google l’indexait dans les minutes / les heures qui suivaient.
Les choses ont par la suite évolué et ces derniers temps, beaucoup d’acteurs du Web, partout dans le monde s’inquiètent du fait que leur contenu ne soit pas indexé par Google. Quoi de plus désagréable que d’investir du temps et de l’argent pour produire un contenu qualitatif et de se retrouver avec une page qui ne s’indexe pas après des minutes, des heures, des jours … des mois dans certains cas ! Bref, un contenu qui ne sera donc pas trouvé par un internaute via Google, ça fait mal !
Je n’ai pas la recette magique pour que votre contenu s’indexe rapidement et qu’il reste indexé. L’intérêt ici est de mettre le doigt sur des éléments de bon sens qu’on a une fâcheuse tendance à oublier. Nous en profiterons également pour voir ce qui explique que l’indexation ne se fait pas de la même façon qu’avant.
Comprendre les débuts de Google pour mieux cerner les problèmes actuels
La course à l’indexation
Durant ses premières années, Google était dans une position où il était en concurrence constante avec les autres moteurs de recherche pour indexer tout ce qu’il pouvait indexer. C’était une course perpétuelle avec les autres acteurs pour avoir la base la plus complète possible. L’idée était d’apporter le maximum de sources d’informations aux internautes.
L’évolution du nombre de sites / pages Web
Source : Statista
Au moment où Google a mis en ligne son moteur, à la fin des années 90, il y avait moins de 3 millions de sites Internet. Le travail d’indexation était « simple » même avec les technologies de l’époque. Aujourd’hui, nous sommes à environ 2 milliards de sites web. Cette évolution exponentielle s’est bien évidemment accompagnée d’avancées technologiques majeures.
Google a les moyens technologiques et financiers pour faire le job, mais est-ce que ça aurait un sens ? Quelle est l’utilité de tout indexer dans la mesure où une grande partie de ces 2 milliards de sites n’ont pas de valeur ajoutée (ou très peu).
L’allocation des ressources
On en vient donc à cette logique d’allocation des ressources. Pour Google, indexer un site coûte de l’argent puisqu’il doit allouer du matériel, de l’énergie, etc. Ça n’a pas de sens économiquement parlant de dépenser des fortunes pour indexer tout le Web, d’autant que la plupart des sites sont faiblement qualitatifs.
Le discours public est un peu différent et Google surfe sur la vague « green » pour expliquer qu’il y a du gaspillage énergétique et que ce n’est pas bien !
Evolution des usages, illustrations, vidéos
Au tout début, les premiers sites Internet se voulaient essentiellement informatifs et étaient composés du minimum vital : du contenu texte. Les usages ont fortement évolué par la suite avec des sites de toutes natures (informatif, commercial, récréatif, etc.).
Les internautes s’attendent à des contenus de différentes sortes selon l’intention de la requête et l’internaute cherche logiquement l’information la plus qualitative possible. Si l’internaute cherche un guide sur un sujet, il n’y a rien de plus naturel qu’il tombe sur une page très détaillée avec du texte bien structuré, des illustrations, des vidéos, des liens, etc.
Quelle conclusion tirer de tout ceci ?
Google n’est plus dans une course pour indexer le maximum de pages possibles, son intérêt est de délivrer l’information la plus qualitative possible à l’internaute selon sa requête.
La plupart des sites Web, petits ou grand, ont beaucoup de contenu qui devrait être indexé, mais qui ne l’est pas.
Google indique qu’il dispose d’un nombre limité de ressources. Face à une quantité quasi infinie de contenu disponible en ligne, Googlebot n’est capable de trouver et d’explorer qu’un pourcentage de ce contenu. Ensuite, parmi le contenu exploré, Google précise qu’il n’est capable d’en indexer qu’une partie.
Nous allons donc mettre le doigt sur des éléments importants qu’on a tendance à oublier et qui maximiseront vos chances de vous indexer et surtout de rester indexé !
Les raisons pour lesquelles Google décide de ne pas indexer vos pages
Prenez n’importe quel site, peu importe sa taille, il y a de fortes chances que la totalité des pages ne soit pas indexée sur Google. Il vous suffit de comparer le résultat du crawl (fait à l’aide du logiciel de votre choix) et d’extraire le résultat de ce qui est indexé sur Google pour voir la différence.
Si votre site est enregistré sur la Search Console, vous pouvez même voir qu’il y a plusieurs statuts comme « Détectée, actuellement non indexée » ou encore « Explorée, actuellement non indexée ». Ces informations n’aident pas de façon explicite à résoudre le problème, mais elles constituent un bon point de départ pour faire son diagnostic.
1 / Explorée, actuellement non indexée
Quand une page non indexée est dans cette catégorie, ceci veut dire que Google l’a bien visitée mais qu’elle n’est pas indexée.
Quand nous voyons ce problème, la plupart du temps, il s’agit d’un problème de qualité du contenu. Il convient donc de s’assurer qu’on utilise des titres, descriptions et textes uniques sur toutes les pages. Il faut impérativement éviter de dupliquer du contenu ou de faire des copier / coller de descriptions de produits par exemple.
L’information délivrée sur la page doit être pertinente et utile pour l’internaute selon sa requête.
2 / Détectée, actuellement non indexée
Là il s’agit plus d’une catégorie « fourre-tout » ! Il peut s’agir de qualité de contenu médiocre, d’un nombre massif d’URL à parcourir qui sont en file d’attente pour l’exploration, d’un type de page qui ne mérite pas que Google dépense de l’énergie à aller les parcourir, etc.
Si vous avez des pages dans cette deuxième catégorie, nous vous recommandons de commencer par identifier s’il n’y a pas une similitude dans le modèle de pages. Pour un site e-commerce, il peut s’agir par exemple d’une rubrique entière de produits. Toujours pour un site e-commerce, il peut s’agir simplement des pages de recherche internes dont le nombre est énorme.
Si le robot de Google peut explorer librement ces pages de recherche internes (qui n’ont la plupart du temps aucune importance), alors il est évident qu’il ne vous accordera pas les ressources maximales pour indexer les pages importantes (produits / catégories). Dans ce cas de figure, il conviendra de bloquer l’accès du robot de Google sur les pages de recherche internes.
Autre exemple, toujours pour les e-commerces, les pages produit sans stock font que l’internaute quitte immédiatement la page. Ceci constitue un critère pour Google qui ne voit pas l’intérêt d’indexer de telles pages. L’internaute doit trouver le produit donc il a besoin.
Comment augmenter la probabilité que Google indexe vos pages ?
On ne va pas s’attarder sur des éléments de base comme le temps de chargement ou encore la compatibilité du site sur mobile. Intéressons-nous à des éléments qu’on a une fâcheuse tendance à oublier.
1 / Evitez les 404
Les erreurs 404 sont monnaie courante. Si Googlebot parcourt votre site et qu’il trouve une typologie de pages avec régulièrement des erreurs 404, il n’aura aucun intérêt à continuer l’allocation de ressources pour explorer le reste. Corrigez donc ces erreurs 404 sans attendre.
2 / Utilisez les liens internes
Les liens internes sont l’un des principaux signaux pour Google indiquant qu’une page donnée est une partie importante du site Web et mérite d’être indexée. Ne laissez aucune page orpheline dans la structure de votre site Web et n’oubliez pas d’inclure toutes les pages indexables dans vos sitemaps.
Combien de fois, nous tombons sur des pages qui ne font aucun lien interne, et pourtant, il y a matière à !
3 / Valorisez les contenus importants
La plupart du temps, les pages importantes de votre site ne constituent qu’une petite partie de ce dernier. Il y a des pages d’importance moyenne, et enfin, des pages sans aucune utilité pour l’indexation. Facilitez le travail à Google et empêchez simplement l’indexation de ces pages inutiles. Vous maximiserez les chances d’allocation de ressources sur les pages importantes.
4 / Eliminez le contenu de mauvaise qualité et le contenu dupliqué
Rappelez-vous : l’intérêt de Google est de délivrer à l’internaute, l’information la plus qualitative possible en fonction de sa requête. Est-ce qu’un contenu dupliqué ou de mauvaise qualité répond à cette exigence ? Non !
Eliminez donc tous ces contenus.
Si votre site est composé à moitié de pages avec une forte partie de contenu dupliqué et une autre moitié ultra qualitative, et si Googlebot commence par parcourir les pages non qualitatives, il y a de fortes chances qu’il associe votre site à un site non « utile ». Vous pourrez produire d’autres pages très intéressantes, mais Google aura raison de croire qu’il n’y a pas lieu de les indexer en se basant sur sa « première expérience ».
5 / Poussez Google à la découverte de vos pages importantes
Google ne visitera probablement pas toutes les pages de votre site, même si elles sont relativement petites. Votre travail consiste à faire en sorte que Google puisse découvrir et indexer les pages qui sont essentielles pour votre activité. La hiérarchisation de votre contenu et les liens internes seront vos meilleurs alliés. Les backlinks consolideront ce travail.
En conclusion
Si Google le voulait, il pourrait tout indexer, il en a largement les moyens, cependant ce n’est pas une équation qui aurait du sens d’un point de vue financier. Google sait pertinemment qu’une grande partie des pages Web ne sont pas qualitatives ou le sont faiblement. Il n’y a donc aucun intérêt à procéder de la sorte.
C’est pourquoi, les ressources de Google pour l’indexation sont volontairement limitées.
Votre rôle sera donc de produire la page la plus qualitative possible en se mettant toujours dans la peau de votre visiteur. Mettez en place des pratiques de bon sens et augmentez vos chances de vous faire indexer et surtout de rester dans l’index de Google.
En procédant de la sorte, vous vous hisserez automatiquement au-dessus du lot et vous augmenterez la probabilité que Google associe votre site à une source pertinente et qui mérite d’être indexé.