Mis à jour le 23/12/2024
Le duplicate content (ou contenu dupliqué) désigne la reproduction à l’identique ou presque du contenu d’une page web quelque part sur internet, sur un URL différent. En SEO, on évoque assez souvent ce phénomène, la plupart du temps involontaire.
En effet, quand un moteur de recherche tombe sur plusieurs contenus pertinents, mais très similaires, il n’en choisira qu’un pour l’afficher en haut de sa page de résultat, laissant les doublons loin derrière.
Quels sont les différents types de duplicate content ?
Comment en arrive-t-on à des contenus dupliqués ? D’abord, il s’agit de distinguer deux catégories :
- le duplicate content interne, autrement dit des passages qu’on retrouve plusieurs fois sur un même site web, voire de doublons entiers de pages (avec des URLs différents, mais appartenant au même domaine) ;
- le duplicate content externe, qui désigne les morceaux de texte entiers qu’on retrouve sur deux domaines différents, et n’appartenant évidemment pas au même webmaster.
Pourquoi se retrouve-t-on avec du contenu dupliqué sur un même site ?
Les causes du duplicate content interne sont multiples, mais voici les plus courantes :
- un passage d’un site HTTP au protocole sécurisé HTTPS. En cas de petite défaillance technique, cette manipulation de votre site web (que nous recommandons chaudement dans notre article HTTPS) peut résulter sur des pages en double ;
- les variantes d’URL, très courantes sur les sites d’e-commerce, lorsqu’un même produit, décliné en plusieurs versions, présente une même description sur deux pages différentes. Mieux vaut donc s’en tenir à une seule fiche produit qui mentionne les coloris et/ou options possibles.
Peut-on vraiment plagier les autres sites (duplicate content externe) ?
Ça paraît gros, car Google a divers moyens de lutter en faveur des droits d’auteur, comme la date de publication d’un article où le Page Rank du site dont il provient (lequel a, en principe, déjà fait ses preuves). Voici deux cas de figure qui peuvent néanmoins se produire si on manque de vigilance.
Les difficultés de la rédaction web
Il peut arriver que vous, ou votre rédacteur web, ayez besoin de boucler rapidement un article. Par réflexe, vous puisez les infos chez le résultat le plus pertinent de la requête sur laquelle vous voulez vous positionner sur Google.
Là, vous tombez sur quelques phrases tellement simples et claires que vous ne voyez pas comment les reformuler : vous cédez alors à la tentation de copier-coller ce passage. Ou, à la rigueur, vous ne changez qu’un ou deux mots, histoire de faire illusion. Puis, au gré des choix de facilité, vous arrivez à un article qui a la même structure et aussi exactement les mêmes infos que la concurrence, avec uniquement des modifications de tournure.
Ça, avec le développement du NLP, les bots ne laissent plus passer. Pour remédier à ça, multipliez vos sources ! Et pour allez plus loin, on vous explique comment éviter le fluff content !
Le cas (rare) du contenu scrappé
Entre deux sites avec un niveau d’autorité identique, il peut arriver le scénario suivant : un site A publie du contenu original, lequel attend d’être indexé par les algorithmes des moteurs de recherche, processus qui peut prendre plusieurs jours, le temps que les crawlers passent par le domaine en question.
Pendant ce temps, le webmaster d’un site B, qui travaille sur le même sujet, effectue une veille chez son concurrent principal (le site A) et tombe sur du contenu tout frais. Ni une, ni deux, il s’en empare et fait en sorte d’accélérer l’indexation de sa propre publication. Dans ce cas, Google risque fort de considérer le site A comme étant le plagiaire du site B, et de le déclasser sérieusement.
Impact SEO du duplicate content
Une idée reçue veut que le duplicate content soit pénalisé par Google, lequel lui infligerait, par exemple, une désindexation pure et simple. Certes, l’algo Google Panda est là pour identifier le contenu de faible qualité, dont le duplicate content, mais nul besoin de sanctionner systématiquement toutes les pages incriminées.
Il suffit juste aux moteurs de recherche de déterminer, à travers la convergence d’indices évoqués plus haut, quel est le contenu original et de reléguer les autres dans les profondeurs de ses SERPs. Ce qui est, on en conviendra, aux antipodes des objectifs SEO.
Nota Bene : si Google perçoit des techniques abusives dans les duplicate contents qu’il trouve, il lui arrive tout de même de les retirer tout bonnement de ses résultats de recherche.
Comment identifier du contenu dupliqué ?
Pas le choix : il vous faut utiliser un outil pour ne rien laisser passer ! En voici trois possibles (il en existe plein d’autres) pour vous assister dans cette démarche.
Screaming Frog : un crawler complet pour l’analyse de votre site
Les utilisateurs de Screaming Frog, dans sa version gratuite ou payante, peuvent déceler tous les contenus dupliqués de leur propre site web, qu’ils soient internes ou issus d’un site tiers. Si vous tenez une e-boutique ou ne connaissez pas les méthodes de votre rédacteur web, procédez régulièrement à des vérifications de routine.
Vous pourrez filtrer vos recherches (en excluant certains documents HTML par exemple), et aussi modifier la sensibilité de l’outil, pour détecter des similitudes plus éloignées. À noter, toutefois, que l’interface est en anglais.
Kill duplicate : pour traquer les sites qui vous copient
En vous inscrivant sur la plateforme Kill duplicate, vous profitez d’un service de recherche de contenus qui ont plagié les vôtres. Mieux encore, vous bénéficiez d’une surveillance en temps réel.
Copyscape : une alternative freemium à Kill duplicate
Avec une interface assez minimaliste et en anglais, Copyscape s’occupe également de fouiller le web à la poursuite d’éventuels contenus dupliqués. La plateforme propose des outils de comparaison gratuits et des conseils sur comment réagir en cas de flagrant délit de plagiat.
À noter que la version premium serait considérée comme un des plus puissants outils de détection actuels, d’après des tests de laboratoires indépendants.
Comment éviter au maximum le contenu dupliqué ?
D’abord, il s’agit de les débusquer, grâce aux outils vus plus haut. Ensuite, il existe plusieurs méthodes pour s’en débarrasser…
Duplicate content interne
Il arrive que l’on préfère ne pas supprimer une page. Dans ce cas, vous pouvez utiliser :
- la redirection 301, à placer sur la page dupliquée pour qu’elle reconduise directement les utilisateurs et les bots vers celle que vous voulez faire ranker ;
- la balise rel=canonical, qui indique d’office aux moteurs de recherche le contenu original sans qu’ils aient besoin de le deviner ;
- la balise noindex et tout autre moyen de désindexer les contenus trop faibles sans pour autant les supprimer.
Duplicate content externe
De deux choses l’une :
- soit vous contactez le webmaster en lui demandant cordialement par mail ou réseaux sociaux de modifier ou de supprimer les extraits plagiés dans les plus brefs délais ;
- soit vous en appelez directement à Google en leur envoyant une notification pour atteinte aux droits d’auteur, en espérant que la (ou les) page(s) incriminée(s) seront bannies des SERPs.
Bien sûr, la difficulté est que l’évolution de la situation dépendra des réponses que vous obtiendrez de la part de l’un ou l’autre…
Pour finir…
Le Duplicate Content, c’est vraiment le caillou dans la chaussure de votre référencement naturel : on ne sait ni quand ni d’où il peut arriver, mais il suffit à vous empêcher de marcher.
Heureusement, il suffit d’un peu de vigilance pour ne pas avoir à en subir les nuisances, en surveillant régulièrement sur votre site et sur le web, en maîtrisant différents outils et balises et en adoptant les bonnes pratiques rédactionnelles.