Controlando el acceso de los buscadores con robots.txt

Los motores de búsqueda basan su funcionamiento en los robots de búsqueda, que se dedican a rastrear todas las páginas web accediendo a estas para rastrear los enlaces, que luego los buscadores almacenan y emplean para ofrecer sus resultados. Estos robots son como usuarios invisibles que acceden a tu sitio web, visitan las páginas, buscan los enlaces y van recopilando la información. Aúnque no los veamos, estos estan accediendo a los contenidos de nuestra web como un usuario más. Así pues cuando estos robots daban sus primeras andaduras en internet allá por mediados de los 90, a veces podían llegar a saturar las páginas. Así fue como nació un protogolo destinado a estos robots, con el cual se pueden establecer algunos criterios que estos robots siguen.

Así es como nació el famoso fichero «robots.txt» que debe estar ubicado necesariamente en la carpeta raíz del dominio (o de nuestro subdominio), ya que si lo colocamos en otra carpeta de nuestro sitio web, simplemente será ignorado. Se trata de un simple archivo TXT, donde por medio de una serie de reglas básicas podremos establecer el funcionamiento de los buscadores a la hora de indexar nuestro sitio web.

A continuación vamos a explicar como funcionaría

User-Agent – con esta instrucción hacemos referencia al robot al que se aplica la regla. Podemos referirnos a todos los navegadores con un asterisco (*) o referirnos a uno o varios en concreto con su código (por ej. Google, MSNBot).
Disallow – aquí indicaríamos las páginas que desea bloquear, y que corresponderán al User-Agent que hayamos definido.
Allow – con esta instrucción indicamos que las páginas se pueden indexar.

Aunque muchas veces nos olvidamos de incluirlo es recomendable que este fichero esté en nuestro sitio web, así pues un archivo robots.txt básico sería como sigue:

User-Agent: *

Así indicaríamos que todos los robots pueden indexar libremente todos los contenidos de nuestra web sin ninguna excepción siempre que sean capaces de rastrearlos. Si por ejemplo, queremos hacer el proceso inverso, es decir, bloquear la indexación de todo un sitio web por parte de todos los motores, nuestro archivo robots.txt tendría esta estructura

User-Agent: *

Disallow: /

Por otro lado, si lo que queremos hacer es evitar que los buscadores indexen solo un directorio de nuestro sitio web (por ejemplo, el correspondiente al panel de administración), podríamos hacerlo de esta forma:

User-Agent: *

Disallow: /ruta/directorio_privado/

También cabe la posibilidad, de que por ejemplo, evitemos la indexación de un directorio, a excepción de un archivo, para ello simplemente tras el Disallow del directorio añadiríamos un Alloy del fichero que nos interesa que se indexe.

Si quieres más información sobre el archivo robots.txt puedes encontrarla en este artículo de Wikipedia.

Cookie	Duración	Descripción
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Deja un comentario Cancelar la respuesta