Google es un buscador muy eficiente, y día a día trabaja indexando nuestros sitios web, para ofrecerle páginas y contenido relevante a los visitantes que buscan constantemente cosas de interés personal.
El problema que vengo a solucionar es cuando Google decide indexar ciertas páginas que nosotros no queremos que indexe o rastree, incluso ignorando el archivo robots.txt; en las mismas notas de ayuda que ofrece Google advierte que incluso si alguien enlaza desde su web un contenido que está bloqueado por robots.txt, existen posibilidades de que aun así lo rastree e indexe en el buscador, ignorando lo que nosotros deseamos.
Para evitar el rastreo de Google mediante .htaccess en un servidor Apache y así hacer que su Googlebot deje de pasar por algunas páginas o todas las páginas de nuestro Sitio Web (opción de cada quien), tenemos que editar nuestro .htaccess por FTP en nuestro servidor web, y agregamos el siguiente código, pero personalizandolo según sea nuestro caso:
# Esto bloquea el acceso a las siguientes rutas:
# /ejemplo.html
# /login
# /login/
# /directorio
# /directorio/
<Files ~ "^(ejemplo.html|login|directorio)$">
# User-agent's
SetEnvIfNoCase User-Agent "^Googlebot" block_bot
Order Allow,Deny
Allow from All
Deny from env=block_bot
</Files>
Con esto ya no tenemos que utilizar el archivo robots.txt, aunque puede ser un complemento para evitar el rastreo de ciertas páginas o secciones de un sitio web.
Para bloquear por ejemplo las etiquetas en el CMS WordPress:
"^(tag/*)$"
La ventaja de este código es que funciona con varios bots y el tipo de bloqueo es por la fuerza, y la única manera en que puede acceder estos bots a las páginas determinadas, es cambiando de User-Agent, práctica común con los bots maliciosos.