Pour les propriétaires de sites web, rien n’est pire que de retrouver du duplicate content sur leurs plateformes. Bête noire des moteurs de recherche, ce phénomène est traqué avec assiduité par leurs bots. Même en agence de communication, c’est avec le souffle coupé que les agents vérifient l’existence de potentiels plagiats.
Quel est donc ce monstre qui fait trembler tout l’univers du digital ? Bien plus complexe qu’il n’y paraît, le contenu dupliqué est un élément crucial en référencement naturel. De sa définition à ses caractéristiques, il importe de le connaître en profondeur afin d’éviter des déboires.
En français, « duplicate content » peut être traduit par « contenu dupliqué ». Comme son nom l’indique, cette expression désigne une page web reproduite à l’identique par une autre plateforme. À noter que la copie peut concerner l’intégralité du site ou juste quelques sections.
Généralement, le contenu dupliqué est le fait de rédacteurs web peu scrupuleux ou de gestionnaires de sites manquant d’éthique. Il est plus facile de reproduire un contenu existant que d’en créer un ex nihilo. Grâce à la combinaison Ctrl+C et Ctrl+V, il ne faut que quelques secondes pour que le site web soit prêt à être montré au reste du monde.
Seulement voilà… Pour Google et les autres moteurs de recherche, c’est une pratique est tout bonnement inacceptable. Qui dit plagiat, dit perte de qualité. C’est donc tout naturellement que les logiciels de recherche mènent une guerre sans répit contre ce phénomène.
Dans la définition, le contenu dupliqué est extrêmement basique. Si un texte présent sur un site web est copié puis collé sur une autre plateforme, les moteurs de recherche activent la sonnette d’alarme.
Avant d’aller plus loin, encore faut-il prendre conscience qu’il existe plusieurs types de contenus dupliqués. Dans le premier cas, il peut s’agir de pages reproduites au sein d’un même site mais disposant d’URL différentes. Généralement, pareille manœuvre est dû à la nécessité de créer des versions mobile et PC ou résulte d’un oubli du webmaster. En agence de communication, pareilles coquilles sont traquées avec assiduité. Avant de livrer le produit final au client, les agents s’assurent à maintes reprises qu’il ne renferme pas de produit dupliqué. Malheureusement, c’est un phénomène que l’on retrouve fréquemment sur les e-boutiques créées par les amateurs.
C’est la bête noire des propriétaires de sites web… Qu’elle découle d’un plagiat ou d’une redistribution via un flux RSS, la présence de contenus dupliqués entre plusieurs sites internet n’est jamais bon signe.
Cependant, dans certains cas, il peut être nécessaire de laisser des contenus dupliqués coexister. Afin d’éviter que le site originel ne soit pénalisé, il convient alors de rajouter la balise rel=canonical dans l’en-tête du site original. Dans le cas où Google déciderait de ne plus faire figurer toutes les URL incriminées, cette balise garantit que la source restera visible.
En dépit des croyances populaires, Google ne bannit pas les sites identifiés comme possédant du contenu dupliqué. Cependant, le moteur de recherche s’arrange à diminuer leur position dans les résultats. En d’autres termes, un site indexé comme plagiat aura peu, voire pas de chances d’être vu par les internautes. Pour les propriétaires de site web, traquer le duplicate content devrait être un réflexe. En effet, ce n’est pas toujours le site fautif qui paie les pots cassés.
Si le site web qui a réalisé le plagiat a un page rank plus élevé, il est possible qu’il éclipse la source originelle. Au lieu que le site copié soit pénalisé, ce sera le créateur original qui sera relégué en arrière-plan. Outre le page rank, d’autres critères entrent en jeu au moment de la gestion du conflit. On peut notamment citer les balises et les URL. Dépendamment de tous ces éléments, trois scénarios distincts peuvent avoir lieu.
Comme des jumeaux monozygotes, les deux pages qui se livrent bataille sont similaires en tout point. Pas une virgule, ni un caractère supplémentaire ne les distingue. Même les URL, le title et la balise meta description sont superposables.
Dans ce cas de figure, c’est le page Rank qui fera pencher la balance d’un côté ou de l’autre. Seul la page ayant le score le plus élevé sera indexé tandis que l’autre se perdra dans les méandres du World Wide Web.
Pour le profane, les sites web A et B sont en tout point similaires. Même structure. Même contenu textuel. Même thématiques traitées. Cependant, deux éléments qui peuvent facilement inaperçus les distinguent : leurs balises title et description. Dans ce cas de figure, toutes les pages web seront indexées par les moteurs de recherche. Cependant, seul l’original apparaîtra dans les résultats organiques. Pour consulter la page considérée comme duplicata, l’internaute devra cliquer sur « inclure les pages ignorées ».
Afin d’essayer de glaner d’améliorer la visibilité de leurs sites web, certains webmasters créent des contenus uniques mais essaient de leurrer Google en utilisant des balises déjà existantes. Malheureusement, leur petit jeu passe rarement inaperçu.
De tous les scénarios imaginables, celui-ci est celui donnant lieu à la punition la plus sévère. Face à un tel degré de machiavélisme, Google peut tout simplement décider de ne pas indexer les pages dupliquées. Pour les fraudeurs, c’est la garantie de ne jamais avoir de visites organiques.
Pour chaque page, il est fortement recommandé de créer une URL unique. Si, pour une raison X ou Y, un gestionnaire de sites internet décide de dupliquer un contenu, il ne doit surtout pas omettre l’insertion de la balise rel=canonical. Pour éviter les situations fâcheuses, le mieux reste encore de faire appel à une agence de communication.