¿Su sitio web bloquea los robots de los motores de búsqueda?
Ingrese la dirección del sitio web y averigüe si los robots de los motores de búsqueda están bloqueados por metaetiquetas, archivos robots.txt o encabezados HTTP.
Bloqueo de los robots de los motores de búsqueda
Como propietario de un sitio web, ¿te has preguntado alguna vez cómo los motores de búsqueda descubren todo lo relacionado con tus páginas web aunque no las hayas “promocionado” específicamente en las redes sociales u otros sitios web? Los robots de los motores de búsqueda son el modo.
Los robots de los motores de búsqueda son programas diminutos que aterrizan en los sitios web y siguen los enlaces que hay en ellos para recoger información sobre el sitio web. Esta información se añade luego a las bases de datos de dichos motores de búsqueda. Si te preguntas por qué los motores de búsqueda utilizan estos robots, pues bien, así es como saben qué sitios web pueden proporcionar la información relacionada con las palabras clave que buscan los usuarios.
¿Qué son los robots de los motores de búsqueda?
También conocidos como vagabundos, rastreadores, bots y arañas, los robots de los motores de búsqueda son herramientas utilizadas por motores de búsqueda populares como Google, Microsoft Bing y Yahoo para construir sus bases de datos. Estos robots visitan automáticamente las páginas web, navegan por ellas y separan la información para descifrar la descripción de la página.
Un motor de búsqueda se considera de alto rendimiento si ofrece los resultados a las consultas de los usuarios con rapidez. Para poder hacerlo, debes tener una amplia base de datos con información sobre todo lo que se publica en Internet. Los robots del motor de búsqueda te ayudan a recopilar esa información. Estos rastreadores acumulan detalles como los encabezamientos de las páginas, las metaetiquetas, los metadatos y el contenido basado en palabras y lo introducen en las bases de datos de los motores de búsqueda para que puedan ofrecer respuestas más rápidamente que otros motores de la competencia.
¿Cuáles son los robots más comunes de los motores de búsqueda?
Algunos de los robots más comunes de los motores de búsqueda son:
- Googlebot
- Slurp bot
- Bing bot
- Baidu spider
- DuckDuck bot
- Exabot
- Sogou spider
- Yandex bot
- Alexa crawler
¿Por qué el propietario de un sitio web bloquearía un robot de búsqueda?
Aunque el hecho de que los robots de los motores de búsqueda rastreen tu sitio web sólo te ayudaría a obtener una mejor clasificación con respecto al dominio que estás atendiendo, algunos propietarios de sitios web alojan detalles sensibles en tus páginas web y quieren que sean privados y seguros. Aquí es donde surge el problema de la seguridad, ya que los robots de los motores de búsqueda no pueden distinguir entre el contenido web público y el privado.
Otra razón por la que el propietario de un sitio web querría que estos bots se mantuvieran alejados de su contenido es para evitar la duplicación de todo el sitio web o de su contenido, ya que afectaría negativamente a su SEO.
Por estas razones, los propietarios de sitios web a menudo quieren restringir el acceso a sus páginas web mediante la prohibición o el bloqueo de los rastreadores, especialmente cuando el sitio web está en modo de ensayo. El modo de prueba permite configurar y previsualizar el sitio web antes de poner el servidor en línea, por lo que a menudo se sugiere bloquear los bots durante este proceso.
¿Cómo bloquear los robots de los motores de búsqueda?
Hay tres maneras de bloquear a los bots:
1. Metaetiquetas
Las metaetiquetas son textos cortos que definen el contenido de un sitio y aparecen únicamente en el código fuente de la página. Permiten a los programadores mantener los parámetros para los rastreadores, ya que les impiden indexar el sitio.
Puedes bloquear los rastreadores durante el establecimiento del web utilizando la siguiente etiqueta Meta en su código fuente:
<meta name=”robots” content="noindex,nofollow">
Nota: Una vez que un sitio web se activa, es obligatorio eliminar esto ya que hará que las páginas web no sean visibles para TODOS los buscadores. Las metaetiquetas funcionan mejor sólo durante el proceso de creación de un sitio web para evitar que el contenido sea robado.
2. Archivos robots.txt
Los archivos robots.txt son archivos de texto ASCII sin formato que limitan el acceso de los rastreadores a ciertas secciones del sitio web, por ejemplo, archivos y carpetas específicos. Si deseas bloquear algunos datos concretos de tu sitio web, puedes utilizar este método.
Para utilizar un archivo robots.txt, abre un nuevo archivo en el Bloc de notas (o en cualquier otro procesador de textos sencillo) y escribe estas palabras para bloquear los robots de todo el sitio:
User-agent: *
Disallow: /
Ahora guarda el archivo en el directorio raíz y asegúrate de que el nombre del archivo es robots.txt (todo en minúsculas).
3. Cabecera HTTP
La cabecera HTTP, o X-Robots-Tag, es una versión mejorada de las metaetiquetas que facilita su adición a cada página. Este método permite especificar y establecer el valor para todo el sitio de una sola vez.
Este es el código que puedes utilizar:
Header set X-Robots-Tag "noindex, nofollow"
Nota: Si no eliminas esto del código fuente de tu sitio web después de que éste esté en funcionamiento, se ocultará la página de TODOS los navegadores web.
¿Cómo comprobar si los robots del motor de búsqueda están bloqueados en una URL específica?
Al igual que hay tres maneras de bloquear los robots de los motores de búsqueda, hay tres maneras de comprobar si están bloqueados para un sitio web:
- Ve el código fuente HTML del sitio web para encontrar la etiqueta Meta o X-Robots-Tag
- Comprueba el contenido del archivo robots.txt del sitio web
- Escanea las cabeceras HTTP
Si ninguno de los métodos anteriores funciona, puedes considerar el uso de la herramienta gratuita descrita anteriormente.