/ Frontend

Comprendiendo el archivo robots.txt

Porque a todos cuando empezamos se nos ha llegado el momento de tropezarnos con este archivo. Robots.txt es más importante de lo que te imaginas.

El archivo robots.txt es un archivo de texto plano, que nos sirve para darle instrucciones a los motores de búsqueda respecto a cómo queremos que ellos naveguen e indexen páginas en nuestra web para. Me explico, supongo que para ti es incómodo y puede que te disguste, cuando invitas a tus amigos a tu casa y estos acceden a ciertos lugares de que no deberían; entonces para evitar esto, una salida sería indicarle a tus amigos aquellos lugares que tu deseas que no ingresen, por ejemplo: La cocina, directamente la nevera (tengo un amigo que me la deja vacía, cada vez que viene de visita).

En fin, con los motores de búsqueda ocurre exactamente lo mismo. Si tú no les indicas a que lugares del sitio web pueden entrar y a cuales no, estos accederán hasta el último rincón, indexando y haciendo público, contenidos que no deberían, ya sea por su poca relevancia o porque realmente te traes algo bien oculto.

Entonces ya sabiendo de qué se trata, resalto lo importante que es el archivo robots.txt para el posicionamiento en buscadores; ya que es una especie de filtro en el que le indicamos al motor de búsqueda, a qué contenidos y archivos de nuestros sitios web queremos que acceda o no para su indexación. Con esto logramos que el motor de búsqueda acceda al contenido puntual y relevante.

Pero ojo!,** robots.txt solo da indicaciones**, no restringe el acceso. Si deseas realizar algún tipo de bloqueo tendrás que acudir a otra solución, por ejemplo: crear contraseñas para los ficheros.

El hecho que manipules un archivo** robots.txt en tu servidor**, no quiere decir que estás teniendo total control sobre los motores de búsqueda y les estás impidiendo el ingreso a esos lugares que no deseas que ingresen de tu sitio web. Pareciera así, pero en teoría esto no ocurre, en realidad los motores de búsqueda acceden a todos los contenidos de la web, dependiendo del nivel de privilegios de acceso que configures. Pero motores de búsqueda serios como Google, Bing o Yahoo, siguen las indicaciones que uno les deja en el archivo robots.txt y no acceden e indexan esos contenidos que no deseamos, pero otros motores de búsqueda con dudosos objetivos en la web, pueden pasar por alto estas indicaciones, por lo cual accederán e indexarán, contenidos que pueden ocasionar serios problemas respecto al manejo de la seguridad de nuestra información y la de nuestros usuarios.

Pero bueno, por fin explicaré cómo configurar el archivo robots.txt

Pero primero ten en cuenta lo siguiente:

Los motores de búsqueda, puede que interpreten de manera diferente los comandos que indiques en el archivo, así que la sintaxis puede variar dependiendo el rastreador. Para darle indicaciones a un rastreador en específico, deberás investigar cual es la sintaxis apropiada para ese rastreador.

Pero el 90% de usuarios hacen uso de Google para hacer sus búsquedas, así que no hay lío con eso.

El archivo Robots.txt no se las sabe todas, así que no garantiza que se evita el acceso e** indexación de contenidos**  siempre y cuando no se apliquen las propiedades y configuraciones necesarias. Me explico, volvamos al ejemplo de tus amigos en casa; puede que un cuarto tenga dos puertas de acceso, y en una de esas puertas está la indicación de no ingreso, pero puede que la otra puerta no lo tenga y por ahí tu amigo acceda. Lo mismo puede pasar con los sitios web, pueden haber vínculos en otras partes de tu sitio web, los cuales tengan un link que apunte a un área que tú consideras restringida, pero que tiene varias formas de acceder a ella. Lo sé, suena la locura y en realidad es dificilísimo de controlar.

Y ahora después de lo que debes tener en cuenta, ya viene por fin lo bueno:

Primero, crea una archivo de texto plano con el blog de notas y nómbralo robots.txt

La información que va en este archivo es muy sencilla y consta de tres componentes muy importantes:

User-agent (agente de usuario): hace referencia al robot del motor de búsqueda o el software que rastrea nuestra web.

Disallow: Le indica al motor de búsqueda, robot o software de búsqueda que no puede acceder a determinado lugar.

Allow: Le indica al motor de búsqueda, robot o software de búsqueda que puede acceder al contenido que le indiquemos.

Para indicarle una instrucción a todos los motores de búsqueda, solo es necesario hacer uso del asterisco (*).

A continuación unos ejemplos con Google ya que es el motor de búsqueda jefe de Internet

Propiedades Robots.txt

Disallow: /                   
Bloquea todo el sitio 

Disallow: /directorio/        
Bloquea el directorio especifico y su contenido 

Disallow: /pagina-web.html    
Bloquea una página web específica 

User-agent: Googlebot-Image Disallow: /img/casa.jpg        
Bloquea una imagen especificada 

User-agent: Googlebot-Image Disallow: /                          
Bloquea todas las imágenes del sitio 

User-agent: Googlebot Disallow: /*.png$                   
Bloquea un tipo de archivo específico, P.E .png

Debes tener en cuenta que:
Google distingue minúsculas y mayúsculas, lo que significa que para Google es diferente “pagina-ejemplo.html” de “Pagina-ejemplo.html”

Segundo, guárdalo.

Tercero, súbelo por FTP a tu sitio web.

Accediendo a través de FTP o por el panel de control de tu sitio, accede a la carpeta raíz donde se encuentran tus archivos y sube el archivo robots.txt y guárdala ahí, repito… En la carpeta raíz.

Y listo. Eso es el archivo robots.txt y esas son las propiedades principales para que sea totalmente funcional. Es preciso usarlo cuando tenemos contenidos que no necesitamos y quizá no deberíamos dejar que los motores de búsqueda indexen, por ejemplo, los archivos de administración.

Espero que este artículo haya sido de utilidad, compártelo si de algo te sirvió ;).

Comprendiendo el archivo robots.txt
Share this

Subscribe to Esteban con Gafas