Duplicate content : le comprendre pour éviter ses désagréments
Les administrateurs sont parfois tentés de reproduire le contenu partiel ou entier des pages concurrentes. Nombre d’entre eux font des copier-coller pour minimiser leur effort de création éditoriale. Il arrive aussi qu’ils modifient un peu les écrits ou les extraits de texte dans les paragraphes de leur contenu. Découvrez dans cet article l’intérêt d’éviter la reproduction de contenu pour le référencement naturel de son site.
Appréhender l’expression duplicate content
Comme son nom l’indique, la notion duplicate content (DC) consiste à copier le contenu d’autres sites web. Cette pratique est détectable par les robots des moteurs de recherche. En effet, ces Google bots repèrent facilement les contenus similaires en accédant à deux ou plusieurs liens. Le plagiat est surtout prohibé pour les sites éditoriaux du web. Il est commun de trouver des articles identiques dans différents sites.
Nuances de duplicate content
En outre, il existe des nuances qu’il faut appréhender entre les contenus dupliqués internes et externes. On parle de contenu dupliqué interne lorsque dans un même site, les robots accèdent au même contenu à travers plusieurs liens URL. Le problème peut provenir d’un dysfonctionnement technique ou d’une erreur de la part de l’administrateur du site. Il arrive également qu’on ait oublié de distinguer les versions de contenu selon les supports auxquels on les destine. Le duplicate content interne est commun dans les différentes fiches produits des sites marchands.
En revanche, le contenu dupliqué externe concerne les pages similaires accessibles via différents noms de domaine. Habituellement, le contenu dupliqué externe provient d’un plagiat, d’une fiche produit similaire. Mais le contenu dupliqué externe peut également provenir d’une redistribution de flux RSS.
Normalement, ce chevauchement de domaine ne cause pas de soucis si les différentes versions dirigent vers un domaine central (HTTP 301). D’ailleurs ce duplicate content externe est une pratique commune pour laisser les robots indexer uniquement la page originale.
Dans le cas inverse, les robots de Google auront accès à différents domaines ayant un contenu identique. Par conséquent, ils auront du mal à évaluer la pertinence des pages, ce qui affectera le référencement des sites. Les logiciels vont donc indexer alternativement les différents domaines.
Comment les robots de Google réagissent-ils face à un duplicate content ?
Il faut savoir que les Google bots évaluent quand même la pertinence des pages face à un duplicate content. Ainsi, les robots des moteurs de recherches indexent les pages que leurs contenus soient dupliqués ou non. Néanmoins, ces logiciels intelligents pourront ne pas classer les contenus édités plusieurs fois aux meilleurs rangs dans les SERPs. Par conséquent, les contenus dupliqués ont moins de chance d’attirer du trafic. Pire, ils peuvent être carrément exclus des résultats des moteurs de recherche. Mais, il arrive parfois que les voleurs de contenu obtiennent un meilleur classement que la page originale.
Pour les contenus dupliqués, plusieurs cas de figure peuvent se manifester, pour les pages :
Entièrement similaires : les robots vont indexer celles qui disposent de liens internes pertinents qui pointent vers elles (meilleur Page Rank)
Similaires dont les contenus dupliqués diffèrent à certains points (baliseTitle ou description) : Google bots va indexer ces pages, mais ils ne classeront dans les SERPs que celles qu’ils jugeront originaux. Ce qui signifie que certaines pages seront exclues du classement.
Différentes avec certains paramètres identiques (balise Title ou description) : les robots peuvent aller jusqu’à ignorer leur indexation.
Conclusion déductive
Bref, les sites éditoriaux et autres doivent prendre certaines précautions pour ne pas être pénalisés par les moteurs de recherche. Certains blogs font l’erreur de dupliquer le contenu d’autres sites pour générer du trafic. Or, cette pratique est passible de sanction par les robots de Google, ce qui affecte négativement leur référencement. Donc pour éviter tout problème de duplicate content, une page doit disposer d’une seule et unique URL. Mais, si vous choisissez intentionnellement un duplicate content, n’oubliez pas d’indiquer l’URL de la page originale aux robots de Google. Découvrez dans le même ordre d’idée l’utilité de proposer un contenu de qualité pour vos sites.