O Google anunciou recentemente que, a partir do dia 1 de setembro deste ano, deixará de suportar ficheiros robots.txt com a diretiva noindex. Assim, deixará de ser possível bloquear páginas web, por exemplo, com o formato html.

O porquê desta atualização Google no robots.txt

Se quer saber o porquê desta mudança surgir agora, a verdade é que o Google tem procurado alterar esta realidade ao longo dos anos, trabalhando para que o protocolo de exclusão de robots se torne o padrão e não a exceção.

Após analisar se as regras correspondentes ao robots.txt estavam a ser respeitadas, o Google decidiu analisar implementações como, crawl-delay, nofollow e noindex, chegando à conclusão de que “Como essas regras nunca foram documentadas pelo Google, naturalmente, o seu uso em relação ao Googlebot é muito baixo”.

"Estes erros penalizam a presença dos websites nos resultados de pesquisa (...) de forma que não acreditamos serem intencionais para os webmasters”, diz o Google.

Assim, se está atualmente a usar a diretiva noindex nos ficheiros robots.txt, deve adotar as alternativas referidas abaixo.

É importante também certificar-se se está a usar os comandos nofollow ou crawl-delay, sendo que é necessário estar a usar o verdadeiro método suportado já em setembro.

Alternativas ao robots.txt

Contudo, se se apoiava nesta regra, deixamos-lhe 5 alternativas à mesma:

Noindex nas metatags;
Recurso aos códigos 404 e 410;
Proteção da password;
Bloquear robots.txt;
Recurso à ferramenta “Remover URLs”

1. Noindex nas metatags

A diretiva noindex continua a ser suportada nos cabeçalhos de resposta HTTP e HTML, sendo assim a forma mais eficaz de remover URLs do index quando a ação de crawl é permitida.

2. Recurso aos códigos 404 e 410

Os códigos 404 e 410 significam que determinada página não existe, o que irá eliminar esses URLs do Google index assim que forem rastreados e processados.

3. Proteção da password

A menos que se recorra à marcação para indicar uma subscrição ou um conteúdo paywall, geralmente esconder uma página por detrás de um login conduz a que a mesma seja removida do index do Google.

4. Bloquear robots.txt

Os motores de pesquisa só conseguem indexar páginas das quais têm conhecimento que existem.

Assim, bloquear determinada página de ser rastreada geralmente significa que o seu conteúdo não será indexado, enquanto que o motor de pesquisa pode também indexar o URL baseado em links de outras páginas sem o seu conteúdo ser visto.