¿Qué es el archivo Robots.txt? ¿Y como crear uno? (Guía para principiantes)

¿Sabía que tiene control total sobre quién rastrea e indexa su sitio, hasta las páginas individuales?

La forma de hacerlo es a través de un archivo llamado Robots.txt.

Robots.txt es un archivo de texto sin formato ubicado en la raíz de su sitio web. Les dice a los "robots" (como las arañas de los motores de búsqueda) qué páginas rastrear en su sitio, qué páginas ignorar.

Si bien no es esencial, el archivo Robots.txt ofrece mucho control sobre cómo Google y otros motores de búsqueda llegan a su sitio.

Cuando se usa correctamente, puede más el rastreo e incluso afectar el SEO.

Pero, ¿cómo crear exactamente un archivo Robots.txt de manera efectiva? Una vez creado, ¿cómo lo usas? ¿Y qué errores debes evitar al usar?

En esta publicación, comparto todo lo que necesita saber sobre el archivo Robots.txt y cómo usarlo en su blog.

📑 Aquí podrás encontrar 👇

¿Qué es el archivo Robots.txt?
Usando Robots.txt
Puede acceder al archivo Robots.txt
Cómo crear un archivo Robot.txt
Usar Robots.txt
Errores de utilidad que provocan la eliminación de Robots.txt
Tu dinero

¿Qué es el archivo Robots.txt?

En los primeros días de Internet, los programadores e ingenieros crearon "robots" o "arañas" para rastrear e indexar páginas web.

A veces, estos robots se dirigían a páginas que los propietarios de los sitios no querían que se indexaran. Por ejemplo, un sitio de construcción o un sitio web privado.

Para resolver este problema, Martin Koster, un ingeniero holandés que desarrolló el primer motor de búsqueda del mundo (Aliweb), propuso un conjunto de estándares que todo robot debe cumplir. Estos estándares se propusieron por primera vez en febrero de 1994.

El 30 de junio de 1994, varios autores de robots y pioneros de la web llegaron a un consenso sobre los estándares.

Estos estándares han sido aceptados como el Protocolo de Exclusión de Robots (REP).

El archivo Robots.txt es una implementación de este protocolo.

El REP define el conjunto de reglas que este robot puede proteger. Si Robots.txt muestra que los robots no están indexados en una página web, después de Googlebot, todos los robots legítimos están usando MSNbot, siga las instrucciones.

Nota: Puede incluir una lista de robots legítimos aquí.

Tenga en cuenta que algunos robots no autorizados (malware, spyware, recopiladores de correo electrónico, etc.) no pueden seguir estos protocolos. Si hace eso, debe ver el tráfico de bots en las páginas escritas por Robots.txt.

También hay robots que no cumplen con los estándares REP, que no se utilizan para nada sospechoso.

Puede ver robots.txt en cualquier sitio web yendo a esta URL:

http://[website_domain]/robots.txt

Por ejemplo, aquí Robots.txt en Facebook Dosier:

Yaqui esta Robots.txt en Google Dosier:

Usando Robots.txt

Robots.txt no es un documento central para el sitio web. Esta página está posicionada desde el archivo y creada a la perfección.

En caso de embargo, use Robots.txt para volver a mostrar Alguna:

Evite que los bots rastreen carpetas privadas – Si bien no es lo ideal, prohibir que los bots rastreen carpetas privadas las hace mucho más difíciles de indexar, incluso menos que los bots legítimos (como las arañas de los motores de búsqueda).
Controlar el uso de los recursos – Cada vez que un bot rastrea su sitio, agota el ancho de banda y los recursos del servidor, recursos que se gastarían mejor en visientadores reales. Puede usar Robots .txt para bloquear el acceso a scripts, imágenes, etc.
Priorizar páginas importantes – Al bloquear estas páginas inutiles, puede dar prioridad a las páginas en las que se centralan los bots.

Puede acceder al archivo Robots.txt

Como se dijo, Robots.txt es un archivo de texto sin formato.

Este archivo se encuentra en el directorio web de raiz de su sitio. Para encontrarlo, simplemente abra su herramienta FTP y vaya al directorio de su sitio web en public_html.

Este es un pequeño archivo de texto; el mio tiene poco mas de 100 bytes.

Para abrirlo, utilice cualquier editor de texto, como el bloque de notas. Es posible que veas algo como esto:

Es posible que no vea un archivo Robots.txt en la raíz de su sitio web. En este caso, debe crear un archivero Robots.txt uted mismo.

Así es como se hace:

Cómo crear un archivo Robot.txt

Debido al hecho de que Robots.txt es un archivo de texto sin formato, crearlo es MUY fácil: simplemente abra un editor de texto y guarde un archivo vacío como robots.txt.

Para copiar el archivo al servidor, use su archivo FTP favorito (uso recomendado WinSCP) para iniciar una sesión de red en su servidor. Luego abra la carpeta public_html y abra la raíz de su sitio web.

Dependiendo de cómo esté configurado su servidor web, el directorio raíz de su sitio puede estar ubicado directamente en la carpeta public_html. O podria ser una carpeta en el.

Una vez que abra la raíz de su sitio web, simplemente arrastre y suelte el archivo Robots.txt en él.

Alternativamente, puede crear el archivo Robots.txt directamente desde el editor FTP.

Para hacer esto, abra la raíz de su sitio y haga clic derecho -> Crear nuevo archivo.

En el cuadro de diálogo, escriba «robots.txt» (sin comisiones) y haga clic en Aceptar.

Deberia, echa un vistazo al nuevo archivo robots.txt aquí:

Finalmente, asegúrese de haber configurado el permiso correcto para el archivo Robots.txt. Desea que el propietario, usted, lea y escriba el archivo, pero no otros ni el publico.

En el archivo Robots.txt verá el código de autorización «0644».

De lo contrario, haga clic en el archivo Robots.txt y seleccione «Permisos de archivo...»

Aquí está: ¡Archivo Robots.txt completamente funcional!

Pero, ¿qué puedes hacer realente con este archivo?

Luego le mostraré algunas instrucciones generales que puede usar para controlar el acceso a su sitio web.

Usar Robots.txt

Recuerde que Robots.txt es un control esencial que interactúa con los robots del sitio web.

¿Desea bloquear el acceso de los motores de búsqueda a todo su sitio web? Simplemente cambie los permisos en Robots.txt.

¿Quieres evitar que Bing indexe tu página de contacto? Puedes hacer esto también.

El archivo Robots.txt es independiente pero no mejora el SEO, pero no puede usarlo para controlar el contenido del robot en el sitio.

Para agregar o cambiar un archivo, simplemente ábralo en su editor de FTP y agregue el texto directamente. Una vez que guarde el archivo, los cambios surtirán efecto inmediatamente.

Tiene comandos que puede usar en el archivo Robots.txt:

1. Bloquea todos los bots de tu sitio

¿Desea bloquear todos los robots para que no rastreen su sitio web?

Acepto que este código está en el archivo Robots.txt:

User-agent: *
Disallow: /

Así se verá en el archivo real:

En pocas palabras, este comando le dice a cada agente de usuario

para que no tenga acceso a archivos o carpetas en su sitio.

Aquí está la explicación completa de lo que está sucediendo exactamente aquí: Agente de usuario: * - el asterisco it un symbolo de «substituto» que se refere a cualquier cosa en el mundo Objeto (como un nombre de archivo o, en este caso, un bot). Al usar «*.txt» en la computadora, puede ver este archivo .txt. Aquí el asterisco significa que su comando se refiere a
cualquier cosa en el mundo agente de consumo

Prohibición: / – Disallow it a commando de robots.txt que evita que se bot ratee una carpeta. La barra inclinada única (/) significa que está aplicando este comando al directorio raíz.

Nota:

Esto es ideal si está ejecutando cualquier tipo de sitio web privado como B. una página de membresía. Pero tenga en cuenta que esto evitará que todos los bots legítimos como Google rastreen su sitio. Actuar con cautela.

2. Evite que todos los bots accedan a una alfombra específica

¿Qué sucede si desea evitar que los bots rastreen e indexen una carpa específica?

User-agent: *
Disallow: /[folder_name]/

Por ejemplo la carpeta /images?

Se manda que este en una carpeta con recursos que no desea saturar con cares de robots Puede ser una carpeta con scripts menores, imágenes obsoletas, etc.

Nota: La carpeta /images es solo un ejemplo. No estoy diciendo que tengas que bloquear a los bots para que no rastreen esta carpeta. Depende de lo que quieras lograr.

Los motores de búsqueda suelen fruncir el ceño cuando los webmasters impiden que sus bots rastreen folderas sinágenes, así que tenga cuidado al usar este comando. A continuación, enumera todas las alternativas en el archivo Robots.txt para encontrar las especificaciones del motor para las páginas de índice.

3. Bloquee los bots específicamente en su sitio

¿Qué sucede si desea bloquear un robot específico, como Googlebot, para que no acceda a susitio?

Aquí está el comando para ello:

User-agent: [robot name]
Disallow: /

Ejemplo: si desea bloquear Googlebot de su sitio web, use:

Cada bot o agente de usuario legítimo tiene un número específico. La araña de Google, por ejemplo, se llama simplemente "Googlebot". Microsoft también opera msnbot y bingbot. El bot de Yahoo es la llama «Yahoo!sorber».

Para encontrar los nombres exactos de diferentes agentes de usuario (tales como Googlebot, Bingbot, etc.), use este lado.

Nota: El comando anterior bloquea un bot específico para todo su sitio. Googlebot se utiliza solo como ejemplo. En la mayoría de los casos, nunca querrá evitar que Google rastree su sitio web. Un caso de uso específico para bloquear bots específicos es evitar que los bots que lo benefician ingresen a su sitio y detengan a aquellos que son buenos para su sitio.

4. Bloquee el rastreo de un archivo específico

El protocolo de apagado del robot brinda un control preciso sobre los archivos y carpetas que desea bloquear el acceso del robot.

Este es el comando que puede usar para detener el seguimiento de un archivo desde cualquier robot:

User-agent: *
Disallow: /[folder_name]/[file_name.extension]

Escriba si bloquea el archivo Llamado «img_0001.png» de la alfombra «images» use este comando:

5. Bloquee el acceso a la carpeta, perolaub, se indexe el archivo

El comando "Sin permiso" evita que los bots accedan a un archivo o archivos.

El comando Permitir hace lo contrario.

El comando Permitir reemplaza al comando No allowir si el primero se dirige a un solo archivo.

Esto significa que puede bloquear el acceso a una carpeta pero aún permitir que los agentes de usuario accedan a un archivo separado dentro de la carpeta.

Este formato se utiliza:

User-agent: *
Disallow: /[folder_name]/
Allow: /[folder_name]/[file_name.extension]/

Por ejemplo, si desea que Google impida la visualización de un signo de intercalación de imágenes cuando desee acceder al archivo «img_0001.png» en este archivo, se utilizará este formato:

Para el ejemplo anterior se ve así:

Esto dejará de indexar todas las páginas en el directorio /search/.

¿Qué sucede si desea dejar de indexar todas las páginas relacionadas con una extensión específica (como «.php» o «.png»)?

Utilizar este:

User-agent: *
Disallow: /*.extension$

El signo ($) tiene el significado de la URL final, que indica la extensión de la última dirección de la URL.

Si bloquea todas las páginas con extensión «.js» (para javascript), se utilizará lo siguiente:

Este Commando es especialmente efectivo cuando se trata de usar scripts rastreen para bots.

6. Evita que los bots rastreen tu sitio con memada hequencia

Es posible, que haya visto este comando en los ejemplos anteriores:

User-agent: *
Crawl-Delay: 20

Este comando mostrará todos los bots que esperan al menos 20 segundos entre las solicitudes de seguimiento.

El comando de retraso de rastreo se usa en el menú de sitios web grandes con contenido actualizado con frecuencia (por ejemplo, Twitter). Este comando está plagado de bots que necesitan al menos un cuidado especial.

Esto asegura que el servidor no se sobrecargue con demasiadas solicitudes de diferentes bots al mismo tiempo.

por ejemplo, lo robots.txt en Twitter un archivo que indica a los bots que esperen al menos 1 segundo entre solicitudes:

Incluyendo Puede Controlar Los Retrasos de Rastreo para bots individuales. Esto asegura que demácios bots no rastrearán su sitio a la vez.

Por ejemplo, podria tener un conjunto de comandos como este:

Nota: De hecho, no necesita usar este comando a menos que esté usando un sitio web masivo con miles de páginas nuevas que se crean cada minuto (como Twitter).

Errores de utilidad que provocan la eliminación de Robots.txt

El archivo Robots.txt es el control de contenido predeterminado para los bots del sitio.

Sin embargo, también puede provocar un bloqueo de SEO si no se usa correctamente. No hay ayuda que haya una serie de conceptos de error sobre Robots.txt que circulan en línea.

Hay algunos errores que se deben evitar al usar Robots.txt:

Error #1 – Usar Robots.txt para desindexar su contenido

Si "deshabita" está en el archivo Robots.txt, los bots son legítimos pero no están desarrollados.

Pero eso todavía significa dos cosas:

Los bots rastrearán el contenido de la carpeta vinculado desde fuentes externas. Por ejemplo, si otro sitio tiene un enlace a un archivo en su carpeta bloqueada, los bots seguirán a través de un índice.
Pequeños bots: spammers, spyware, malware, etc. - Ignorar Robots.txt y directivas de indexación en general en contenido de forma independiente.

Esto hace que Robots.txt puede tener un pequeño error para desindexar el contenido.

Esto es lo que debe usar en su lugar: use la etiqueta 'meta noindex'.

Acepto la siguiente etiqueta a las páginas que no desea indexar:

<meta name=”robots” content=”noindex”>

Esta es la forma recomendada y compatible con SEO para evitar que las páginas se indexen (aunque todavía no bloquea a los spammers).

Nota: Si usa un complemento de WordPress como Yoast SEO o All in One SEO; Puede hacer esto sin editar el código. Por ejemplo, además de Yoast SEO, puede agregar la etiqueta noindex a la función de publicación/página de la siguiente manera:

Simplemente abra y publique/pagina y haga click en el servicio en el Cuadro Yoast SEO. Luego haga clic en el menú desplegable junto a Meta Robot Index.

Además, a partir del 1 de septiembre, Google ya no permitirá el uso de "noindex" en los archivos robots.txt. este es un articulo Obtén más información sobre SearchEngineLand.

Error #2 – Usar Robots.txt para proteger la privacidad

Si contiene archivos PDF confidenciales, por ejemplo, para un curso por correo electrónico, bloquear el directorio con el archivo Robots.txt ayudará, pero no será suficiente.

Es por eso:

Su contenido aún se puede indexar si está ligento desde fuentes externas. Además, los engañosos aún lo rastrearán.

Un mejor método es mantener todo el contenido privado detrás de la entrada. Esto garantiza que nadie (bots legítimos o fraudulentos) tenga acceso a su contenido.

La pega es que supone un salto extra para sus visitantes. Pero su contenido será más seguro.

Error #3: Usar Robots.txt para detectar la indexación de contenido duplicado

El contenido duplicado es un gran no-no cuando se trata de SEO.

Sin embargo, usar Robots.txt para dejar de indexar este contenido no es la solución. Nuevamente, no hay garantía de que las arañas de los motores de búsqueda no encuentren este contenido a través de fuentes externas.

Tiene 3 formatos de envío de contenido duplicado:

Eliminar contenido duplicado - Esto eliminará completamente el contenido. Sin embargo significa que estás redirigiendo los motores de búsqueda a páginas 404, lo cual no es lo ideal. Debido a esto, no se recomienda borrar.
Uso de redirecciones 301 - A redirección 301 indica a los motores de búsqueda (ya los visitantes) que una página se ha movido a una nueva ubicación. Simplemente agregue redireccionamientos 301 al contenido duplicado para llevar a los visitantes al contenido original.
Agrega una etiqueta rel = «canónica». – La etiqueta es la versión «meta» de una redirección 301. La etiqueta «rel = canonical» se muestra en Google y muestra específicamente la URL original de la página. Por ejemplo, este código es:
http://ejemplo.com/pagina-original.html«rel =» canónica «/>
En Google, tira los dados para que la página, original-page.html, sea la versión "original" de la página duplicada. Si usa WordPress, esta etiqueta es un archivo de agregación con Yoast SEO o All in One SEO.

Si desea que los visitantes tengan acceso a contenido duplicado, utilice rel = «canónico» Si no desea que los visitantes o los bots sean accesibles en el contenido, use una redirección 301.

Ten cuidado al implementarlos, porque afectarán tu SEO.

Tu dinero

El archivo Robots.txt es un aliado útil para dar forma a la forma en que las arañas de los motores de búsqueda y otros bots interactúan con su sitio web. Cuando se usan correctamente, pueden tener un efecto positivo en su Clasificación y hacer que su sitio sea más fácil de rastrear.

Use esta guía para descubrir cómo funciona Robots.txt, cómo instalarlo y algunos usos comunes. Y evitar cualquiera de los errores que discutimos anteriormente.

Deja una respuesta Cancelar la respuesta