O que é Conteúdo Duplicado?

Conteúdo duplicado refere-se quando várias páginas têm conteúdo idêntico disponível em diferentes URLs no seu site.

Isso é um grande erro de SEO.

Como o conteúdo duplicado afeta as classificações?

As páginas duplicadas prejudicam a classificação do seu site por muitas razões:

Os motores de busca são sensíveis à originalidade do conteúdo hospedado nos recursos da web. Se houver várias páginas com conteúdo duplicado, então é provável que essas páginas sejam penalizadas pelo Google e afetem negativamente a classificação geral do seu site nos SERPs.
A presença de um grande número de páginas duplicadas complica drasticamente o processo de indexação do site, pois os motores de busca têm que gastar seu orçamento de rastreamento rastreando as páginas duplicadas, em vez das suas páginas de alta classificação.
Torna mais difícil classificar com sucesso as páginas de destino, pois o motor de busca não pode selecionar objetivamente uma página relevante para classificar, pois há várias instâncias da mesma página.
O "PageRank" e o "peso" das páginas são diluídos, pois os links internos são distribuídos entre as páginas duplicadas.
Concorrentes desonestos também podem encontrar páginas duplicadas no seu site e adicionar links externos a elas. Isso as adicionará ao índice do motor de busca e, como resultado, os motores de busca reduzirão o seu site nos resultados de busca, pois você provavelmente será atingido com uma penalidade de conteúdo duplicado.
O Google escreve em detalhes sobre o impacto negativo das páginas duplicadas e como lidar melhor com elas em seu artigo intitulado "Consolidating Duplicate URLs."

As causas mais comuns de páginas duplicadas são:

Nenhuma redirecionamento 301 sendo definido para páginas com www e sem www. Nesse caso, cada página do site é uma duplicata, pois está disponível em dois endereços.

Por exemplo:
- http://example.com/page
- http://example.com/page
As páginas do site estão disponíveis no endereço com e sem barra. Se não houver redirecionamento 301 definido, então o software do site percebe as seguintes páginas como diferentes, embora o conteúdo seja idêntico:

Por exemplo:
- este URL parece uma pasta no site - termina com '/.'
  http://example.com/page/
- e este URL é como uma página - os nomes das páginas podem não terminar com ".php", ".html", etc.
  http://example.com/page
Além disso, as páginas podem ter .php anexado ao final da URL. Isso causa páginas duplicadas:

Por exemplo:
- http://example.com/page1
- http://example.com/page1.php
Páginas de grupos de produtos com diferentes tipos de opções de filtragem anexadas à URL.

Por exemplo:
- http://example.com/catalog
- http://example.com/catalog?sort=date
- http://example.com/catalog?sort=name
O mesmo produto pode estar presente em diferentes tamanhos e/ou configurações de produtos. O conteúdo será o mesmo nessas páginas, embora haja várias URLs.

Por exemplo:
- http://example.com/catalog/shirt155
- http://example.com/catalog/shirt155?color=Orange
Paginação das páginas de categoria de e-commerce. A URL com o número da primeira página anexado é processada exatamente da mesma forma como se o sistema não passasse o parâmetro com o número. Assim, acontece que a mesma página tem URLs diferentes.

Por exemplo:
- http://example.com/catalog
- http://example.com/catalog?page=1
Você pode ter configurado o CMS para ignorar e ainda servir páginas com parâmetros adicionais adicionados. Isso não é recomendado. Se o site não mostrar um erro 404 quando você adicionar parâmetros inexistentes a uma página, então essas páginas podem ser indexadas e são duplicadas.

Por exemplo:
- URL normal
  http://example.com/blog
- Parâmetro aleatório anexado à URL
  http://example.com/blog?blablabla=7777

Como encontrar páginas duplicadas no seu site?

Você pode encontrar páginas duplicadas no seu site na seção "SEO audit" -> "Páginas duplicadas no seu site" do seu painel Labrika.

O relatório "Páginas duplicadas no seu site" do Labrika:

O que é Conteúdo Duplicado?

A URL da página que tem uma duplicata.
Lista de duplicatas desta página.
Porcentagem de similaridade da página.

Como eliminar páginas duplicadas do seu site?

Maneiras de se livrar de duplicatas:

Você pode eliminar alguns erros de página duplicada simplesmente removendo parâmetros desnecessários de serem permitidos no editor do site. No exemplo abaixo, você pode claramente ver um link que precisa ser limpo e a segunda opção usada em vez disso:

http://example.com/catalog/shirt155?size=XL

Opção preferida:

http://example.com/catalog/shirt155
Se houver apenas um pequeno número de páginas duplicadas encontradas no nosso relatório, então você pode simplesmente desautorizar certas URLs duplicadas de serem indexadas em primeiro lugar. Por exemplo, você provavelmente bloquearia os rastreadores de acessar a pasta de catálogo que faz parte da URL para a primeira página abaixo, para que apenas a segunda URL fosse indexada pelo Google:
- http://example.com/category/product
- http://example.com/product
Você adicionaria a seguinte linha de código para bloquear a primeira página de indexação no seu arquivo robots.txt:
```
# bloquear indexação de páginas duplicadas localizadas na pasta '/category':
Disallow: /category
```
Se as páginas duplicadas parecerem ser um problema sistêmico para todo o seu site, então o atributo rel=canonical é a melhor solução.

rel=canonical é uma tag aplicada a páginas que essencialmente diz; "Eu sou a cópia mestre desta página" aos rastreadores do motor de busca quando eles rastreiam o seu site.

Uma página canônica é uma página que é recomendada para indexação em motores de busca por você e carrega o peso de ser a página 'autorizada' para o texto específico daquela página, no seu site.

Você deve definir a página mais autorizada na lista de páginas duplicadas como a página canônica, e isso instruiria os motores de busca a ignorar todas as duplicatas da canônica.

O atributo é escrito da seguinte forma:
```
# a linha deve ser colocada no bloco <head> na página em si
<link rel="canonical" href="https://site.com/catalog/shirt" />
```

Páginas similares

No seu relatório de páginas duplicadas, você também verá uma seção "páginas similares".

Páginas similares são páginas que diferem apenas por algumas palavras quando comparadas a outras páginas no seu site.

Por exemplo, se você pegasse o conteúdo de uma página, mudasse apenas a cor do produto, ou o nome da cidade, e então salvasse sob uma URL diferente, provavelmente apareceria neste relatório de página similar.

Tais páginas também são propensas a desencadear penalidades de conteúdo duplicado e também devem ser abordadas seguindo as mesmas práticas e métodos listados na seção "Como eliminar páginas duplicadas do seu site?" acima.

Como corrigir o problema

Conteúdo duplicado dentro do seu site é quando várias páginas têm conteúdo idêntico.

Essas páginas arruínam os esforços de otimização do seu site, pois os motores de busca são sensíveis ao conteúdo duplicado, também adiciona ao orçamento de rastreamento desnecessariamente, dilui o page rank, e o coloca em competição consigo mesmo, pois os motores de busca não sabem qual página escolher.

Para corrigir isso, você pode:

Remover parâmetros desnecessários que criam URLs adicionais que levam à mesma página.
Se não houver muitas páginas com o problema, você pode simplesmente desautorizar URLs duplicadas de serem indexadas ou certas seções de categoria de serem indexadas.
Use o atributo rel=canonical para especificar a 'página mestre' de todas as páginas duplicadas. Ao fazer isso, defina a página mais autorizada como a canônica.

Leia mais aqui sobre como implementar esses passos: https://labrika.com/help/docs/pages_duplicates.