Archivos PDF en los resultados de búsqueda de Google

Un artículo publicado en el blog oficial de Google para webmasters explica los detalles sobre cómo los motores de búsqueda indexan los archivos PDF.

Nuestra misión es organizar la información en el mundo y ponerla a disposición de todos los usuarios. Al realizar esta difícil tarea, a veces nos encontramos con archivos que no son HTML, como archivos PDF, hojas de cálculo y presentaciones. Nuestro algoritmo no se detiene en diferentes formatos de archivo; Nos esforzamos por extraer contenido relevante e indexarlo en consecuencia para incluirlo en los resultados de búsqueda. Sin embargo, si estos formatos de archivo son a menudo muy diferentes de los archivos HTML estándar, ¿cómo indexamos realmente estos archivos y qué pautas aplicamos? ¿Qué pasa si el webmaster no quiere que los indexemos?

Google comenzó a indexar archivos PDF en 2001 y actualmente tiene cientos de millones de archivos PDF indexados. Ha reunido las preguntas más comunes sobre la indexación de archivos PDF y estas son las respuestas:

P: ¿Puede Google indexar todo tipo de archivos PDF?
Respuesta: En general, podemos indexar el contenido textual de los archivos PDF (escritos en cualquier idioma) usando diferentes tipos de codificación de caracteres siempre que no estén encriptados o protegidos con contraseña, si el texto está pegado en forma de imagen podemos utilizar el algoritmo de uso de OCR para procesar la imagen [inglés] Extrae el texto. Como regla general, si puede copiar texto de un documento PDF y pegarlo en un documento de texto estándar, debería poder indexarlo.

P: ¿Qué sucede con las imágenes del archivo PDF?
R: Actualmente, la imagen no está indexada. Para que podamos indexarlos, debe crear páginas HTML para las imágenes. Para aumentar las posibilidades de que incluyamos su imagen en los resultados de búsqueda, lea nuestras sugerencias en Ayuda.

P: ¿Cómo trato los enlaces en los documentos PDF?
Respuesta: En general, los enlaces en los documentos PDF se tratan de manera similar a los enlaces en los archivos HTML: se pueden ingresar para la clasificación de PageRank y otras señales de índice, y podemos rastrearlos después de que se obtenga el archivo PDF. Actualmente, el atributo «nofollow» no se puede utilizar para enlaces en documentos PDF.

P: ¿Cómo puedo evitar que mis archivos PDF aparezcan en los resultados de búsqueda? Si ya existen, ¿cómo puedo eliminarlos?
Respuesta: La forma más sencilla de evitar que los documentos PDF aparezcan en los resultados de búsqueda es agregar la etiqueta «noindex» de X-Robots al encabezado HTTP que se usa para mostrar el archivo. Si ya están indexados, ya no aparecerán con el tiempo cuando use la etiqueta X-Robots con el comando «noindex». Para acelerar la eliminación, puede utilizar la herramienta de solicitud de eliminación de URL en las Herramientas para webmasters de Google.

P: ¿Pueden los archivos PDF ocupar un lugar destacado en los resultados de búsqueda?
Respuesta: por supuesto. La clasificación de estos archivos suele ser similar a la de otros sitios web. Por ejemplo, cuando se publicó esta revista, [mortgage market review], [irs form 2011] esta [paracetamol expert report] Debido a su contenido y la forma en que están incrustados y vinculados por otras páginas web, los documentos PDF devueltos ocupan un lugar destacado en los resultados de búsqueda.

P: Si tengo una copia de una página en HTML y PDF, ¿se considera duplicada?
Respuesta: Siempre que sea posible, recomendamos ver una única copia de su contenido. Si esto no es posible, asegúrese de incluir su versión preferida. Puede hacer esto incluyendo la URL de su elección en el mapa del sitio o especificando la versión canónica en el encabezado HTTP del archivo HTML o PDF. Para obtener más consejos, consulte el artículo de ayuda sobre canonización.

P: ¿Cómo influyo en los títulos que aparecen en los resultados de búsqueda de mis documentos PDF?
R: Usamos dos elementos principales para determinar el título que se muestra: los metadatos del título contenidos en el archivo y el texto de anclaje del enlace al archivo PDF. Para que nuestro algoritmo pueda registrar claramente el título que se utilizará, le recomendamos que actualice estos dos elementos.

Fuente: blog oficial de Google del webmaster

Archivos PDF en los resultados de búsqueda de Google

Comentarios

Deja una respuesta Cancelar la respuesta