¿Qué es un crawler o araña web y cómo funciona?

crawler-spider-google

Dentro de todo el vocabulario que manejan los técnicos SEO hoy nos vamos a centrar en desglosar el término crawler o araña web de Google, porque todo lo que tiene relación con este gigante de Internet es muy interesante. La palabra crawler y crawling son dos conceptos que tienen relación directa con el robot de búsqueda de Google.

 

crawler-bot  ¿Qué es un crawler o araña web?

El crawler o araña web es un software o webbot que se encarga de rastrear todas las páginas web disponibles online, leer estas páginas, analizarlas y entenderlas además de llevar toda esta información a un servidor para que según un algoritmo especial aparezcan en determinada posición en los resultados de búsqueda.

Los crawlers son también llamados: spider web, crawler, araña google, web crawler o googlebot.

 

webbot ¿Qué es el crawling?

El crawling es un determinado tiempo que tiene el Crawler para recorrer las páginas web e indexarlas. Google ordenará las páginas en función del contenido y otros factores matemáticos para ofrecer a los usuarios el mejor resultado.

Por ello es muy importante, que mediante el SEO onpage, le digamos al buscador en qué debería emplear su tiempo dentro de nuestra web, rastreando páginas importantes de nuestro blog donde tenemos palabras clave en vez del formulario de contacto que únicamente indica nuestras oficinas, por ejemplo.

 

crawler ¿Cómo funcionan los Crawlers?

Cada Crawler dispone de un conjunto de URL’s conocidas como semillas. Al rastrear Internet va descargando páginas web asociadas a las semillas y buscando dentro de estas páginas web más semillas.

Cada nueva URL encontrada se añade a una lista que la araña de google deberá visitar. Recolecta URL’s para posteriormente procesarlas. De esta forma Google crea un índice de las páginas descargadas para dar resultados más rápidos.

Cuando un googlebot visita un sitio web realiza una de estas dos acciones:

  • Busca el archivo robots.txt y la meta etiqueta robots para conocer qué reglas tiene. No olvidemos que el protocolo de robots.txt es un método para evitar que los bots investiguen toda la página web, se suele restringir a las páginas con contenido de valor para posicionar en buscadores.
  • Recopila un índice de las páginas web que hay en la página web, explorando el texto visible (contenido), las etiquetas html (categorización de los títulos h1, h2 y h3) y los enlaces (linkbuilding).

 

robot-crawler El Crawler más famoso: Googlebot

Existen todo tipo de rastreadores capaces de rastrear y analizar diferentes tipos de información contenida en nuestro sitio web.

Googlebot es un robot de búsqueda propiedad de Google que colecciona documentos de la web con el fin de construir una base de datos para ofrecer resultados competentes al motor de búsqueda Google.

Googlebot tiene dos versiones:

  • DeepBot. Su función es investigar profundamente nuestra web tratando de seguir cualquier enlace que encuentre. Entre sus acciones encontramos también el de poner nuestra página en caché y dejarla disponible para Google.
  • FreshBot. Su acción principal es la de recolectar contenido nuevo, para ello investiga tu web. Idealmente este bot visitará la página web todos los días si tiene contenido nuevo cada día, o cada 15 días o cada mes, etc.

Podemos comprobar si GoogleBot ha visitado nuestra página mirando los logs de nuestro servidor. Estos logs son archivos donde se guarda un registro de actividad del sistema, añadiendo líneas a medida que se realizan visitas o acciones. Encontraremos la información del crawler y la dirección de ip.

Una vez que GoogleBot haya rastreado nuestra página web, seguirá los enlaces que encuentre, por ello es tan importante el enlazado interno y que otras páginas web enlacen a tu sitio.

 

 

no replies

Leave your comment