Google publicó una guía sobre cómo reducir correctamente la tasa de rastreo de Googlebot debido a un aumento en el uso erróneo de los códigos de respuesta 403/404, lo que podría tener un impacto negativo en los sitios web.
La guía mencionó que el uso indebido de los códigos de respuesta estaba aumentando por parte de los editores web y las redes de distribución de contenido.
Googlebot de limitación de velocidad
Googlebot es el software automatizado de Google que visita (rastrea) sitios web y descarga el contenido.
La limitación de velocidad de Googlebot significa reducir la velocidad con la que Google rastrea un sitio web.
La frase, tasa de rastreo de Google, se refiere a cuántas solicitudes de páginas web por segundo realiza Googlebot.
Hay ocasiones en las que un editor puede querer ralentizar Googlebot, por ejemplo, si provoca demasiada carga en el servidor.
Google recomienda varias formas de limitar la frecuencia de rastreo de Googlebot, la principal de ellas es mediante el uso de Google Search Console.
Limitación de velocidad a través de la consola de búsqueda ralentizará la frecuencia de rastreo durante un período de 90 días.
Otra forma de afectar la tasa de rastreo de Google es a través de la uso de Robots.txt para impedir que Googlebot rastree páginas individuales, directorios (categorías) o todo el sitio web.
Lo bueno de Robots.txt es que solo le pide a Google que se abstenga de rastrear y no le pide a Google que elimine un sitio del índice.
Sin embargo, el uso de robots.txt puede tener «efectos a largo plazo» en los patrones de rastreo de Google.
Quizás por eso la solución ideal sea utilizar Search Console.
Google: detener la limitación de velocidad con 403/404
Google publicó una guía en su blog Search Central que aconseja a los editores que no usen códigos de respuesta 4XX (excepto el código de respuesta 429).
La publicación del blog mencionó específicamente el mal uso de los códigos de respuesta de error 403 y 404 para limitar la tasa, pero la guía se aplica a todos los códigos de respuesta 4XX, excepto a la respuesta 429.
La recomendación es necesaria porque han visto un aumento en el número de editores que utilizan esos códigos de respuesta de error con el fin de limitar la frecuencia de rastreo de Google.
El código de respuesta 403 significa que el visitante (Googlebot en este caso) tiene prohibido visitar la página web.
El código de respuesta 404 le dice a Googlebot que la página web desapareció por completo.
El código de respuesta de error del servidor 429 significa «demasiadas solicitudes» y esa es una respuesta de error válida.
Con el tiempo, es posible que Google elimine páginas web de su índice de búsqueda si continúan usando esos dos códigos de respuesta de error.
Eso significa que las páginas no serán consideradas para la clasificación en los resultados de búsqueda.
Google escribió:
“Durante los últimos meses, notamos un aumento en los propietarios de sitios web y algunas redes de entrega de contenido (CDN) que intentan usar 404 y otros errores de clientes 4xx (pero no 429) para intentar reducir la tasa de rastreo de Googlebot.
La versión corta de esta publicación de blog es: por favor, no hagas eso…”
En última instancia, Google recomienda utilizar los códigos de respuesta de error 500, 503 o 429.
El código de respuesta 500 significa que hubo un error interno del servidor. La respuesta 503 significa que el servidor no puede manejar la solicitud de una página web.
Google trata ambos tipos de respuestas como errores temporales. Entonces volverá más tarde para verificar si las páginas están disponibles nuevamente.
Una respuesta de error 429 le dice al bot que está haciendo demasiadas solicitudes y también puede pedirle que espere un período de tiempo determinado antes de volver a rastrear.
Google recomienda consultar su página de desarrollador acerca de la limitación de velocidad de Googlebot.
Lea la publicación del blog de Google:
No use 403 o 404 para limitar la tasa
Imagen destacada de Shutterstock/Krakenimages.com
#Google #las #respuestas #error #para #limitar #tasa #Googlebot