¿La directiva NoIndex está implementada válidamente en robots.txt?

[ACTUALIZADO 03-07-2019]

El comando Robots.txt de NoIndex es poco conocido y rara vez se usa entre los webmasters. Matt Katz El apoyo de Google a esta política se analizó en 2008. El portavoz de Google, John Mueller, lo discutió recientemente en su cuenta de Google Hangouts y Deepcrawl. Su blogAsí que creo que es divertido publicarlo en el blog.

La instrucción yo tengo La oportunidad única de mejorar la optimización de motores de búsqueda en el sitio merece un análisis en profundidad. Pero primero entendamos lo básico.

¿Qué es Robots.txt?

Esto no es más que un archivo de texto basado en la web que le dice a los motores de búsqueda cómo interactuar con el contenido recopilado en el sitio web. Esto incluye todas o parte de las URL que desea rastrear y buscar, por lo que «no intente indexarlas» y cuáles no. Criterios para la exclusión de robots.

Robot, en este caso prestaremos atención a GoogleBot, intentaremos buscar todo el contenido posible en Internet para que podamos mostrar este contenido (a través de sus diversas fórmulas de algoritmo) en los resultados de búsqueda de las solicitudes de los usuarios. El propósito de GoogleBot es rastrear (detectar). Lo primero que hace es acceder a su archivo robots.txt y, dependiendo del contenido, de una forma u otra (accesibilidad) o cuando se le indique, seguirá rastreando que no comienza a rastrear *.

Aquí puede ver mi archivo robots.txt, que edité de forma creativa.

Si Robots.txt no está presente, los motores de búsqueda rastrearán por defecto todo el contenido de la página. Para fines de SEO, esto no es lo que queremos, porque algunas páginas no quieren perder el tiempo buscando o (rastreando-encontrando), mientras que otras páginas pueden ser francamente perjudiciales para un buen posicionamiento. También podemos utilizar este sencillo programa para evitar rastrear e indexar imágenes o scripts que no queremos publicar.

Cabe señalar que el archivo robots.txt no garantiza que determinadas páginas no se indexarán. Este concepto no debe confundirse demasiado (aunque la información sobre este tema se ampliará más adelante) ya que el robots.txt actúa como intermediario e indica a Google que no quiere ser indexado. Rastrear pero luego decide si está indexado porque si pasa el archivo robots.txt, por ejemplo, bloqueamos el rastreo de una determinada URL y luego es muy popular y tiene muchas fuentes de diferentes enlaces al campo y un fuerte enlace interno. Resultado de contacto Arriba, puede indexarlo porque cree que es importante, pero es una situación hipotética.

Por lo tanto, es importante enfatizar que el uso de Disallow para bloquear robots.txt puede evitar el rastreo, pero no garantiza la desindexación.

Recuerde que cuantas más páginas tenga que rastrear un motor de búsqueda, menos tiempo le llevará. Esto tiene algunos efectos positivos en su clasificación siempre que le indique qué páginas son valiosas y qué rastrear.

La principal desventaja de este acuerdo es su carácter consultivo. En otras palabras, creemos que el robot está cooperando con el sitio, pero esto no garantiza un aislamiento completo. Una página, incluso si no está indexada, no es invisible. Si su dirección se escribe directamente en el navegador o el enlace se coloca en otra página del sitio web, también puede visitar.

¿Cómo utilizo las instrucciones para evitar el rastreo de robots?

De acuerdo a. . .Condiciones Miguel Masario (Agradezco sus comentarios aquí) Explicaré las dos opciones principales para evitar el seguimiento. Como ya se mencionó, las diversas instrucciones de robots.txt indican al robot qué áreas, segmentos o URL no deben ser rastreadas (descubiertas), porque si no hay instrucciones, el robot rastrea todas las URL dentro del enlace recíproco para llegar y conectarse) en la red.

Las instrucciones del archivo robots.txt se ejecutan mediante varios comandos, incluidos los siguientes:

Agente de usuario: identifique el robot al que se aplican estas instrucciones.
Prohibido: queremos decirle a qué no debería tener acceso.
Solución: Úselo para indicar qué SÍ visitar y encontrar.

existe Este artículo es de Thomas de Teresa, Información ampliada sobre cómo configurar el archivo robots.txt. También aprovecho esta oportunidad para compartir Documentos oficiales de Google conectado.

El robot rastrea en función de todas las conexiones (href) que se encuentran en la web. Otra forma de evitar la persecución de varios enlaces es usar la metaetiqueta robots contenida en el encabezado ls para indicar las distintas páginas que no desea rastrear:

Por lo tanto, señalamos que esta URL no quiere ser indexada y no quiere ser rastreada. Ahora, es posible que se pregunte si especifiqué la página de archivo robots.txt, ¿cuál es el punto de decirle al robot que no rastree la página? La razón es simple. Si un enlace interno (o externo) apunta a una URL que se puede rastrear, Google sigue el enlace y lo lleva a la página correspondiente. Cuando vemos esto, le decimos que no siga al robot a través de la metaetiqueta que aparece en la página Todos los enlaces.

Las instrucciones básicas del meta robot son las siguientes:

index / noindex: Indicamos si la URL debe estar indexada.
follow / nofollow: con esta instrucción le decimos a la araña o al robot si debe tomar y seguir el enlace contenido en la página que implementa el meta-robot.
noimageindex: se utiliza para indicar que la imagen de la página no está indexada.
archive / noarchive: Con esta instrucción le decimos al robot si debe guardar el contenido de la página.

¿Cuál es la función del comando NoIndex?

En robots.txt, la directiva NoIndex nos permite desindexar determinadas páginas para que no aparezcan en los motores de búsqueda. Esto se hace para eliminar de las páginas de búsqueda que tienen poco contenido o que son inútiles o inapropiadas para los clientes, como: B. URL filtradas, operaciones temporales, páginas de política de privacidad, etc.

Cabe señalar que este es un tesoro para los webmasters que buscan mejorar la optimización del motor de búsqueda de su sitio web. No es completamente de dominio público, pero cuando se usa correctamente puede transformar completamente el comportamiento de un sitio web para los motores de búsqueda.

Se pueden obtener resultados similares con el comando Disallow. La ventaja de NoIndex es que la página no está indexada, sino que se siguen sus enlaces para transferir permisos. Por lo general, ambas declaraciones se utilizan para garantizar que partes de su sitio web no estén indexadas.

¿Por qué la omisión de páginas en su sitio web debería mejorar la optimización de su motor de búsqueda?

Si una página aparece en un subdirectorio que ha sido bloqueado para que no se cierre para los motores de búsqueda, nunca se indexará. Esto tiene sentido ya que negamos el acceso y la verificación antes de la creación. Sin embargo, cuando se crea e indexa una página y la ponemos bajo el paraguas prohibido, no hay garantía de que los motores de búsqueda la eliminen de su índice: simplemente mantendrá la última versión que reciba.

Gracias a Robots.txt NoIndex, ahora se pide a los motores de búsqueda que no indexen la página y que la eliminen de su base de datos. Si bien esto no sucede automáticamente, como veremos más adelante, es una verdadera herramienta de oro para SEO.

Uno de los parámetros que utiliza GoogleBot para evaluar y orientar su sitio web se llama presupuesto de rastreo. Este es básicamente el tiempo dedicado a comprobar o rastrear su sitio web. Si este período ha pasado y el sitio no está marcado, los motores de búsqueda dejarán de indexar páginas con contenido actualizado, posiblemente hasta la próxima vez.

Como puede ver, al eliminar páginas que no necesitan indexarse y dejar solo contenido fácil de usar, puede asegurarse de que los motores de búsqueda muestren información relevante y la agreguen a sus bases de datos de búsqueda lo antes posible.

ella Necesito entender que los motores de búsqueda (en este caso el robot de Google) tienen que indexar millones de sitios web todos los días. Y es las 24 horas del día porque el presupuesto para rastrear el motor de búsqueda es limitado. Gracias al comando NoIndex, Robots.txt, puede indicarle que se omita automáticamente, lo que le permite ahorrar un tiempo valioso en el contenido que realmente está buscando.

Puede modificar muchos otros parámetros para acelerar la indexación de su sitio web y usar su presupuesto para un rastreo más consistente y eficiente, pero Robots.txt NoIndex es definitivamente uno de los métodos más fáciles y efectivos.

La diferencia entre la directiva noindex y la prohibición y el archivo robots.txt

Aunque el objetivo final es el mismo que el resultado deseado, existe una diferencia entre indexar y hacerlo de una forma u otra. Debe verse a la luz del objetivo que se persigue:

Analicemos dos casos, no use la metaetiqueta noindex para indexar. Suponga que el robot Sí rastrea la página, Sí sigue el vínculo y Sí transfiere el permiso. Antes de usar robots.txt, podemos decir que los bots no rastrean páginas, siguen enlaces y no transfieren permisos. Pero tenemos que negarlo porque Reclamaciones de Google Esta instrucción en el archivo del robot no es válida para abortar el índice.La mayor diferencia entre robots.txt y los meta robots que no indexan, cuando sigue noindex, es el rastreo.

Al menos la URL que no está permitida no se rastreará, lo que significa que el rastreador no perderá tiempo rastreando su contenido. En el caso de noindex, se visita el contenido de GoogleBot y, entre otras cosas, verá una etiqueta de meta nombre de robots al rastrear.

Otra diferencia que debe destacarse es el tema y la popularidad de la relación, o la difusión del jugo de las relaciones. Con noindex, los siguientes enlaces en esta página son rastreados por bots y la popularidad se transmite, a menos que el enlace respectivo tenga una etiqueta diferente, Rel = «Nofollow». Este es un gran beneficio de los metabolitos porque le permite desindexar una página sin seguir los enlaces que contiene. Algunas cosas muy útiles, especialmente para conexiones internas.

La diferencia entre la metaetiqueta Noindex y NoIndex Robots.txt

Esto es muy confuso, así que vamos a aclararlo desde el principio. Cuando hablamos de metaetiquetas o metaetiquetas, nos referimos a cosas que están presentes en una página en particular. Por ejemplo, si no quiero que mi política de privacidad esté indexada en Google (aunque recomiendo encarecidamente que la revise ya que le sorprenderá al leer este artículo) la pondré en la parte superior de la página https: // www. .manuelperezcardona .com / Política de privacidad:

Puede utilizar este comando para cualquier página que no desee indexar. Si Google lo verifica y ve esta etiqueta, debe eliminar esta página de su índice. Sin embargo, una vez que se haya aplicado esta instrucción y los motores de búsqueda hayan eliminado la página, no se le pedirá que deje de ver esta página.

De hecho, los motores de búsqueda revisan esta página cada vez que se actualiza el índice, aunque algunos motores de búsqueda pueden recordar su decisión y terminar reduciendo su búsqueda con el tiempo.

Sin embargo, Robots.txt NoIndex funciona de manera diferente. Si Google respeta esto, puede combinar los conceptos de evitar impresiones de página y cumplir con las instrucciones al mismo tiempo. Esto se logra escribiendo lo siguiente en Robots.txt:

Prohibido: / protección de datos /

Noindex: / Política de privacidad /

Debido a que la frase NoIndex no tiene que cargar toda la página, los motores de búsqueda pueden eliminarla del índice sin tener que rastrearla, lo cual es una combinación poderosa. Sin embargo, las páginas pueden seguir siendo populares, pero no se pueden redirigir a otras páginas del sitio porque la encuesta está bloqueada.

Un error muy común es implementar metaetiquetas de robot y usar Robots.txt para evitar la indexación. No hace falta decirlo, estúpido, dado que la página Robots.txt está siendo bloqueada, la metaetiqueta del robot nunca se ve.

En resumen, Robots.txt NoIndex es más rápido, más claro y más fácil de manejar varios archivos al mismo tiempo. Al mismo tiempo, si las instrucciones se superponen, no hay confusión: robots.txt sobrescribe las etiquetas colocadas en una página determinada.

Pruebe la eficacia de Robots.txt NoIndex

Primero, confirmo que usar el comando noindex en el archivo robots.txt ya no es válido, pero explicaré un caso en el que entiendo esta tecnología:

Se utilizan para analizar si Google cumple con la política NoIndex Robots.txt Experimento de Eric Enges en el templo de piedra, 13 sitios web intentaron utilizar Robots.txt NoIndex para eliminar una o más páginas del índice de Google. Debido a esto, 8 sitios crearon páginas específicamente para este propósito y 5 sitios utilizaron las páginas creadas. Se estima que estos 13 sitios web se agregarán al índice de Google y luego se agregará la directiva NoIndex para que las páginas se eliminen en el archivo Robots.txt. Debido a un error del operador, una de las páginas no se tuvo en cuenta en el análisis.

Luego, después de 31 días de verificar si la página permanece en el índice de Google o se ha eliminado. Como resultado, Google eliminó 11 de las 12 páginas en 26 días, lo que sugiere que el motor de búsqueda no las eliminó inmediatamente del índice cuando cargó Robots.txt. La primera página se elimina del índice durante una semana. Finalmente casi tercero.

Por lo tanto, podemos sacar la primera conclusión: después de que los usuarios hayan pedido páginas a través de Robots.txt NoIndex, Google tarda de una a tres semanas en eliminar las páginas de su índice.

Cómo desindexar o eliminar URL o páginas de Search Console

Existe una forma de desindexar o eliminar URL en paquetes para ahorrar tiempo al eliminar cada URL individualmente. RápidoAprenderás a hacerlo.

Adivina que va a pasar

Lo primero que se me ocurre es que cuando vuelvo a consultar el sitio web, Google solo ejecuta NoIndex Robots.txt, pero no lo hace. Al analizar los registros de acceso de los sitios web utilizados en el análisis, podemos ver que el robot de Google carga el archivo Robots.txt varias veces al día.

Si analizamos páginas que nunca salieron del índice, vemos que el robot de Google cargó Robots.txt varias veces, pero también visitó la página para no ser indexado e ignorar la instrucción. Al mismo tiempo, Robots.txt se carga regularmente desde las páginas excluidas del índice y las páginas que se eliminarán nunca se verifican.

De estos datos se puede concluir que Google no reacciona inmediatamente a la instrucción NoIndex cada vez que se carga el archivo Robots.txt. Aunque, por supuesto, hay algo de lógica en el proceso, el algoritmo que utiliza el robot de Google para cumplir con la directiva NoIndex no está claro y, en un caso, no se respeta en absoluto. Por lo tanto, podemos estar seguros de que la implementación no garantiza automáticamente que Google eliminará la página de su índice.

Opinión muy personal

Creo que es muy personal ver estos datos de prueba. Por lo tanto, Googlebot espera una cantidad de tiempo razonable para eliminar los registros de sus páginas. Si ha utilizado el archivo Robots.txt y cometió errores y tiene tiempo para corregirlos, esto le ahorrará muchos problemas. Como resultado, el archivo se cargó varias veces (muchas veces) antes de que finalmente se cancelara la página de índice, pero no se verificó: el algoritmo está esperando que restaure la declaración a su estado original. Sin embargo, Me gustaría probar esto con mi equipo para confirmar otras cosas de mi propia experiencia.

El tiempo que lleva eliminar una página de forma permanente puede variar por muchas razones: la alta popularidad puede ser una de ellas. Es como un cuadro de diálogo que pregunta si está realmente seguro de que ya no desea indexar esta página, lo cual está bien. cafeína Debe verificarlo y devolverlo al lugar después de que se borre el estado de cuenta.

Sin embargo, el comando Robots.txt NoIndex no es válido y no funcionará la mayor parte del tiempo.

Además, tenga en cuenta que incluso si evita la censura de la página y usa Robots.txt NoIndex, que sigue siendo importante al publicar enlaces, la página aún puede ganar popularidad. permitido.

Pero no debemos olvidar que, como dijo John MullerNo debe confiar solo en este método. Google puede eliminar esta función en el futuro Su condición aún no se ha mantenido.

Entonces, ¿para qué podemos usarlo? Ahora que no estamos obligados a eliminar el 100% de las páginas de índice, mantenemos el efecto de PageRank cuando usamos Robots.txt NoIndex para fines de SEO. Ésta es la diferencia entre confiar en la herramienta y usarla para nuestros propósitos. Mientras sepamos esto, cualquier ruta es válida.

Si cree que su sitio web necesita una mejora de SEO y desea obtener una mayor visibilidad y convertir tráfico orgánico calificado, no dude en ponerse en contacto conmigo.