Junho 17, 2025

Como Utilizar o arquivo robots.txt para SEO Eficiente

Os robôs de busca indexam um site independentemente da presença de robots.txt e sitemap.xml. No entanto, através do arquivo robots.txt, é possível indicar aos motores de busca o que deve ser excluído da indexação e configurar outros parâmetros importantes.

É importante notar que os crawlers dos motores de busca ignoram certas regras, por exemplo:

O Google Bot não utiliza a diretiva host e Crawl-Delay.
Robôs específicos como Yandex Direct e outros podem ignorar diretivas gerais se não forem especificamente direcionados a eles.

Diretivas

As diretivas são regras para os robôs. Existe uma especificação W3C de 30 de janeiro de 1994 e um padrão expandido de 1996.

Diretivas Comuns

User-agent: é a diretiva que inicia o robots.txt.

Exemplo:

User -agent: * # instruções para todos os robôs de busca.
User -agent: GoogleBot # instruções para o robô do Google.
Disallow: # diretiva de negação, proíbe a indexação do que é indicado após /.
Allow: # diretiva de permissão, para indicar a indexação de URLs. 
Disallow: # não funciona sem o caractere especial /.  
Allow: / # é ignorado se não houver URL após /.

Caracteres Especiais Usados em robots.txt

Preste atenção ao símbolo /, pois pode causar erros graves se utilizado incorretamente, por exemplo:

User -agent:*
Disallow: / # isso pode bloquear todo o site da indexação.

O caractere * significa qualquer sequência de caracteres, incluindo uma sequência vazia, por exemplo:

Disallow: /cart/* # bloqueia a indexação de todas as páginas após a URL: site.com/cart/

O caractere $ limita a ação do símbolo *, proporcionando uma restrição estrita:

User -agent:*
Disallow: /catalog # com esse caractere, catalog não será indexado, mas catalog.html estará no índice.

A diretiva sitemap indica o caminho para o mapa do site e deve ser escrita da seguinte forma:

User -agent:* 
Allow: / 
Sitemap: http://www.site.com/sitemap.xml # deve ser especificado com http:// ou https://, se o SSL estiver ativado.

A diretiva Host especifica o domínio principal do site com ou sem www.

User -agent:*
Allow: / 
Sitemap: http://www.site.com/sitemap.xml 
Host: www.site.com # deve ser escrito o caminho para o domínio sem http e sem barras, certifique-se de que o domínio está concatenado.

A diretiva Crawl-Delay limita a carga no servidor, estabelecendo um tempo de espera para os motores de busca:

User -agent: * Crawl-delay: 2 # define um tempo de espera de 2 segundos.

User -agent: * 
Disallow: /search 
Crawl-delay: 4.5 # define um tempo de espera de 4.5 segundos.

A diretiva Clean-Param é necessária se os endereços das páginas do site contiverem parâmetros dinâmicos que não afetam o conteúdo, como identificadores de sessão, usuários, referenciadores, etc.

O robô de busca, utilizando os valores da diretiva Clean-Param, não irá recarregar informações duplicadas várias vezes, aumentando assim a eficiência da navegação do seu site e reduzindo a carga no servidor.

Por exemplo, páginas com o seguinte endereço:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 
www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

O parâmetro ref é usado apenas para rastrear de onde a solicitação foi feita e não altera o conteúdo; todas as três URLs mostrarão a mesma página com o livro book_id=123. Portanto, se a diretiva for especificada da seguinte forma:

User -agent: *
Disallow:
Clean-param: ref /some_dir/get_book.pl

O robô de busca consolidará todos os endereços da página em um só:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Vale ressaltar que para esta diretiva existem várias opções de configuração.

Caracteres Cirílicos em robots.txt

O uso de caracteres do alfabeto russo é proibido em robots.txt; é necessário usar Punycode (um método padronizado para converter sequências de caracteres Unicode em sequências ACE).

#Errado:
User -agent: *
Disallow: /корзина
Host: loja-online.ru

#Certo:
User -agent: *
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
Host: xn----8sbalhasbh9ahbi6a2ae.xn--p1ai

Recomendações sobre o que fechar no arquivo robots.txt

Painel administrativo - mas tenha em mente que o caminho para seu painel administrativo será conhecido, certifique-se da segurança da senha.
Carrinho de compras, formulário de pedido e dados sobre entrega e pedidos.
Páginas com parâmetros de filtros, ordenação e comparação.

Erros que podem ocorrer em robots.txt

Uma linha em branco - não é aceitável deixar uma linha em branco na diretiva user-agent, que é considerada "separadora" (relativa aos blocos de descrição). Isso significa que a aplicabilidade das diretivas seguintes à linha em branco não pode ser prevista.
Em caso de conflito entre duas diretivas com prefixos de igual comprimento, a prioridade é dada à diretiva Allow.
Para cada arquivo robots.txt, apenas uma diretiva Host é processada. Se várias diretivas forem especificadas, o robô usará a primeira.
A diretiva Clean-Param é interseccional, portanto, pode ser especificada em qualquer lugar do arquivo robots.txt. Se várias diretivas forem especificadas, todas serão consideradas pelo robô.
Alguns robôs de busca não seguem as regras do robots.txt. Para proibir a indexação em seu site, você deve criar parâmetros user-agent separados para cada um deles.
A diretiva User-agent deve sempre ser escrita acima da diretiva de negação.
Uma linha deve corresponder a um diretório. Não é permitido escrever vários diretórios em uma única linha.
O nome do arquivo deve ser exatamente: robots.txt. Não use Robots.txt, ROBOTS.txt, etc. Apenas letras minúsculas no nome.
Na diretiva host, o caminho para o domínio deve ser escrito sem http e sem barras. Errado: Host: http://www.site.com/, Certo: Host: www.site.com (ou site.com).
Ao usar o protocolo seguro https, a diretiva host deve ser especificada com o protocolo, como Host: https://www.site.com.

Verificando erros em robots.txt

Para verificar erros, utilize ferramentas de auditoria técnica disponíveis online.

É importante lembrar que arquivos maiores que 32kb são lidos como totalmente permissivos, independentemente do que está escrito.

Evite o preenchimento excessivo de robots.txt. Webmasters iniciantes muitas vezes se impressionam com artigos que afirmam que tudo o que não é necessário deve ser bloqueado no robots.txt e acabam bloqueando tudo, exceto o texto em páginas específicas. Isso, para dizer o mínimo, é incorreto. Primeiro, há uma recomendação do Google para não bloquear scripts, CSS e outros elementos que podem impedir o bot de ver o site da mesma forma que um usuário. Em segundo lugar, muitos erros estão relacionados ao bloqueio de uma coisa que acaba bloqueando outra também. É, sem dúvida, essencial verificar a acessibilidade da página e seus elementos. Um erro comum é a confusão entre Allow e Disallow. O ideal é bloquear no robots.txt apenas coisas que são claramente desnecessárias para o bot, como formulários de registro, páginas de redirecionamento de links, etc., e eliminar duplicatas usando canonical. Note que corrigir o robots.txt não significa que o bot do Google o lerá imediatamente. Para acelerar esse processo, basta verificar o robots.txt na seção apropriada do painel do webmaster.

Exemplos de configuração correta do robots.txt para diferentes CMS:

WordPress

User -Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

Host: site.com
Sitemap: http://site.com/sitemap.xml

ModX

User -agent: *
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?
Host: example.com
Sitemap: http://example.com/sitemap.xml

OpenCart

User -agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category

Joomla

User -agent:*
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /go.php
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=pt*
Disallow: /*format=*
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*
Disallow: /*=download*
Disallow: /*user/*
Disallow: /.html
Disallow: /index.php?
Disallow: /index.html
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*print=1
Disallow: /trackback
Host: seu-site.com

Bitrix

User -agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Host: seu-site.com
Sitemap: http://www.seu-site.com/sitemap.xml

Nesses exemplos, na especificação User-Agent foi utilizado o parâmetro * para permitir acesso a todos os robôs de busca. Para configurar o robots.txt para motores de busca específicos, o nome do robô deve ser utilizado, como GoogleBot, BingBot, etc.

AVALIAÇÃO GRATUITA