Controlando el acceso de los buscadores con robots.txt

Los motores de búsqueda basan su funcionamiento en los robots de búsqueda, que se dedican a rastrear todas las páginas web accediendo a estas para rastrear los enlaces, que luego los buscadores almacenan y emplean para ofrecer sus resultados. Estos robots son como usuarios invisibles que acceden a tu sitio web, visitan las páginas, buscan los enlaces y van recopilando la información. Aúnque no los veamos, estos estan accediendo a los contenidos de nuestra web como un usuario más. Así pues cuando estos robots daban sus primeras andaduras en internet allá por mediados de los 90, a veces podían llegar a saturar las páginas. Así fue como nació un protogolo destinado a estos robots, con el cual se pueden establecer algunos criterios que estos robots siguen.

Así es como nació el famoso fichero «robots.txt» que debe estar ubicado necesariamente en la carpeta raíz del dominio (o de nuestro subdominio), ya que si lo colocamos en otra carpeta de nuestro sitio web, simplemente será ignorado. Se trata de un simple archivo TXT, donde por medio de una serie de reglas básicas podremos establecer el funcionamiento de los buscadores a la hora de indexar nuestro sitio web.
A continuación vamos a explicar como funcionaría
  • User-Agent – con esta instrucción hacemos referencia al robot al que se aplica la regla. Podemos referirnos a todos los navegadores con un asterisco (*) o referirnos a uno o varios en concreto con su código (por ej. Google, MSNBot).
  • Disallow – aquí indicaríamos las páginas que desea bloquear, y que corresponderán al User-Agent que hayamos definido.
  • Allow – con esta instrucción indicamos que las páginas se pueden indexar.
Aunque muchas veces nos olvidamos de incluirlo es recomendable que este fichero esté en nuestro sitio web, así pues un archivo robots.txt básico sería como sigue:
User-Agent: *
Así indicaríamos que todos los robots pueden indexar libremente todos los contenidos de nuestra web sin ninguna excepción siempre que sean capaces de rastrearlos. Si por ejemplo, queremos hacer el proceso inverso, es decir, bloquear la indexación de todo un sitio web por parte de todos los motores, nuestro archivo robots.txt tendría esta estructura
User-Agent: *
Disallow: /
Por otro lado, si lo que queremos hacer es evitar que los buscadores indexen solo un directorio de nuestro sitio web (por ejemplo, el correspondiente al panel de administración), podríamos hacerlo de esta forma:
User-Agent: *
Disallow: /ruta/directorio_privado/
También cabe la posibilidad, de que por ejemplo, evitemos la indexación de un directorio, a excepción de un archivo, para ello simplemente tras el Disallow del directorio añadiríamos un Alloy del fichero que nos interesa que se indexe.
Si quieres más información sobre el archivo robots.txt puedes encontrarla en este artículo de Wikipedia.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.