En nuestro artículo acerca de cómo indexar una página web en Google os dimos unos cuantos consejos para que tuviese lugar dicha indexación y el posterior posicionamiento. Uno de ellos, si lo recordáis, fue el configurar el archivo robots.txt. Como vimos en aquel post, robots.txt es un archivo introducido en la raíz del dominio que nos permite administrar el acceso de los robots de los motores de búsqueda a nuestra web. Es decir, robots.txt nos da la posibilidad de dar instrucciones a estos programas. Y disallow all es una de sus instrucciones claves.
¿Cómo funciona el disallow?
En concreto, robots txt disallow es una instrucción a través de la cual podemos indicarle a los robots de Google y demás buscadores encargados de rastrear internet que no rastreen ciertas partes de nuestro sitio web. De esa manera nos aseguramos que determinados contenidos que no queremos indexar ni posicionar queden ocultos en relación a las SERPS. Esto es importante por otra razón. Y es que los robots dedican un tiempo limitado a los sitios web. Es una forma de garantizarnos que los contenidos que queremos indexar sean indexados.
Sin embargo, existe una posibilidad más radical. Una instrucción que podemos proporcionar a dichos robots con nuestro archivo robots.txt. Hablamos del robots txt disallow all. Una instrucción que hace que ningún robot de ningún motor de búsqueda pueda acceder al sitio web. En otras palabras: mientras esta instrucción esté activa, nuestro sitio web permanecerá inaccesible e invisible para los motores de búsqueda. Ninguno de los contenidos de nuestro sitio web serán rastreadores, indexados ni posicionados. Simplemente no existiremos para ellos.
La pregunta es: ¿por qué podrías querer algo así? Al fin y al cabo, el posicionamiento orgánico en buscadores es fundamental para alcanzar los objetivos de negocio. Sí, efectivamente. Pero en diversas ocasiones nuestro sitio web se encuentra en una fase de construcción o remodelación. En esas situaciones, lo último que queremos es que llegue a ojos del usuario. Después de todo, si viera nuestra web en fase de desarrollo podría pensar que está terminada y quedar decepcionada con ella. No volvería. En ese sentido, robots txt disallow all nos protege.
Tipos de Robot Txt disallow
¿Te interesa esta instrucción? ¿Crees que podrías necesitarla en este momento o en un momento futuro? Pues a continuación vamos a explicarte cómo implementarla. Es muy sencillo. La instrucción para un robots disallow consiste en dos líneas. Una primera línea, “User-agent: *”, que implica que dicha instrucción va dirigida a todos los robots que intenten entrar en tu sitio web. Y una segunda línea, “Disallow: /”, que es la instrucción en sí para que ninguno de estos robots tenga acceso a las páginas de tu dominio. Así se configura un disallow all.
Sin embargo, es importante aclarar una cuestión. Como hemos repetido a lo largo de todo el artículo, el archivo robots.txt sirve para dar instrucciones a los robots rastreadores de los motores de búsqueda. Pero ninguno de ellos está obligado a cumplirlas. Eso implica, en la mayoría de casos, que los robots de los motores de búsqueda de calidad respetarán tus instrucciones. Pero muchos robots maliciosos no lo harán. En ese sentido, un disallow all es eficaz hasta cierto punto. Puede no resultar 100% efectivo en todos los casos.
En realidad, y más que tipos de robot txt disallow, lo que existen son alternativas. Métodos que nos permiten obtener resultados similares e incluso mejores. Por ejemplo, la utilización las etiquetas html. Así, introduciendo el código “<meta name = «robots» content = «noindex» />” en la cabecera de las páginas de tu sitio web podrás vetar el acceso a los robots. Hay muchas formas de proteger tu contenido de la indexación. ¡Encuentra aquel que más te beneficia e impleméntalo!