Cómo el web scraping puede ser una valiosa fuente de datos

Web Scraping: Suena como un trabajo duro, pero es más inteligente que tedioso.

La técnica explota una verdad simple: el front-end del sitio web que está viendo necesita comunicarse con el back-end para extraer y mostrar datos. Un rastreador web o bot puede recopilar esta información. El trabajo adicional puede organizar el análisis de datos.

Los especialistas en marketing digital buscan constantemente datos para tener una mejor idea de las preferencias de los consumidores y las tendencias del mercado. Web scraping es otra herramienta para este propósito.

Arrastrarse primero, luego rascarse

«En general, todos los programas de web scraping realizan las mismas dos tareas: 1) cargar datos y 2) analizar datos. Según el sitio, la primera o la segunda parte pueden ser más difíciles o más complejas», dijo Ed Mclaughlin, socio de Marquee Data. , una empresa de servicios de web scraping.

El raspado web tiene cierto parecido con una técnica anterior: el rastreo web. En la década de 1990, cuando Internet ocupaba menos espacio cibernético, los bots de rastreo web compilaban listas de sitios web. Google todavía utiliza la técnica para buscar palabras clave para potenciar su motor de búsqueda de sitios web, señaló Himanshu Dhameliya, director de ventas de Rentech Digital, una empresa de automatización de procesos y web scraping.

Para Rentech, el raspado web es solo obtener «datos estructurados de una combinación de diferentes fuentes», dijo Dhameliya, «raspamos sitios web de noticias, datos financieros e informes de ubicación».

«Los datos de web scraping se recopilan en una escala más pequeña», dijo George Tskaroveli, gerente de proyectos de Web-Scrapers Datamam, «lo que aún asciende a millones de puntos de datos, pero también se recopila a diario o con mayor frecuencia», dijo.

«Las características definitorias del web scraping moderno son los navegadores sin cabeza, los proxies residenciales y el uso de plataformas en la nube escalables», dijo Ondra Urban, directora de operaciones de la empresa de extracción de datos y scraping Apify, que se comportan exactamente como los humanos. Abre cualquier sitio web y extrae todos los datos. .. [M]Con otras plataformas en la nube como AWS, GCP o Apify, puede lanzar instantáneamente cientos o miles de raspadores según las necesidades de datos del momento”.

Qué fechas de fiesta y cómo conseguirlas

Existe un amplio espectro de recopilación de datos, que va desde datos de terceros hasta datos de terceros, que los especialistas en marketing examinan constantemente para obtener la siguiente información.

«Los datos de raspado web están más estrechamente asociados con los datos de terceros», dijo Mclaughlin, porque los especialistas en marketing pueden fusionar esos datos con los conjuntos de datos existentes, en el caso de las listas compradas». Dijo.

“El noventa y cinco por ciento del trabajo que hacemos es para terceros [data]Dhameliya dijo. El raspado apunta a los datos que se intercambian entre el front-end y el back-end del sitio web. Esto puede requerir una API diseñada para capturar este flujo de datos, o usar JavaScript con controladores Selenium, explicó.

La mayor parte del trabajo de Rentech está dirigido a empresas que buscan inteligencia y análisis de marketing. Los bots tienen la tarea de visitar sitios web regularmente y, a veces, buscar información sobre productos, dijo Dharmeliya. Algunos sitios web limitan la cantidad de solicitudes que provienen de una sola fuente. Para evitar esto, Rentech usará AWS Lambda para ejecutar un bot que lanza consultas desde varias máquinas para evitar las limitaciones de las consultas, explicó Dhameliya.

Es humanamente imposible revisar todos los datos para eliminar «ceros y duplicados». «Muchos clientes recopilan datos con sus propios dispositivos o usan trabajadores independientes. Es un gran problema no obtener datos limpios», dice. Datamam confía en su propios algoritmos incorporados para iterar a través de las «filas y columnas» y automatizar el control de calidad.

«Escribimos secuencias de comandos de Python personalizadas para extraer sitios web. Por lo general, cada uno está personalizado para un sitio web específico y podemos proporcionar información personalizada si es necesario», dijo McLaughlin. «No estamos usando IA o aprendizaje automático para automatizar la producción de estos guiones, pero esta tecnología podría usarse en el futuro».

Cualquier dato que se pueda copiar y pegar manualmente se puede eliminar automáticamente”, agregó Mclauglin.[I]Si encuentra un sitio web con un directorio de posibles clientes potenciales, el web scraping se puede utilizar para convertir fácilmente ese sitio web en una hoja de cálculo de clientes potenciales, que luego se puede utilizar para procesos de marketing posteriores”.

«Las redes sociales son un animal diferente. Sus aplicaciones web y móviles son extremadamente complejas, con cientos de API y estructuras dinámicas, y también cambian muy a menudo gracias a las actualizaciones periódicas y las pruebas A/B», dijo Ondra. «[U]A menos que pueda capacitar y apoyar a un gran equipo interno, su mejor opción es comprarlo como un servicio de desarrolladores experimentados”.

«Si [the client] en el comercio electrónico, podría salirse con la suya con un raspador de productos impulsado por IA. Corre el riesgo de que la calidad de los datos sea menor, pero puede implementarlos fácilmente en cientos o miles de sitios web», agregó Ondra.

(Una vez que ingresan los datos del mercado, es necesario administrarlos. Esto se analiza en detalle aquí).

Raspe la red, pero use algo de sentido común

El raspado web tiene limitaciones, y oportunidades, pero recuerde que las consideraciones de privacidad deben mitigar la consulta. El web scraping es un arrastre selectivo, no colectivo.

La privacidad es uno de esos límites.»Nunca recopile opiniones o puntos de vista políticos o información sobre familias o información personal», dijo Dharmeliya. Evalúe el riesgo legal antes de raspar. No recopile datos que sean legalmente riesgosos.

Es importante comprender que el web scraping no se trata de recopilar información de identificación personal, ni debe ser por razones legales. pasó en gran parte la prueba legalsobre todo porque es difícil hacer una distinción legal entre los navegadores web y los raspadores web, ya que ambos solicitan datos de los sitios web y hacen cosas con ellos. recientemente juzgado en la corte.

Facebook, Instagram y LinkedIn tienen reglas que rigen qué datos se pueden extraer y qué datos están prohibidos, dijo Dharmeliya. Por ejemplo, las cuentas individuales de Facebook e Instagram que están cerradas son cuentas privadas. Cualquier cosa que divulgue datos al público es un juego justo: el New York Times, Twitter, cualquier lugar donde los usuarios puedan publicar comentarios o reseñas, agregó.

«No brindamos asesoramiento legal, por lo que alentamos a nuestros clientes a buscar asesoramiento legal en su jurisdicción sobre consideraciones legales», dijo McLaughlin.

Profundice: por qué los especialistas en marketing deberían preocuparse por la privacidad del consumidor

El web scraping sigue siendo un complemento útil para otras formas de recopilación de datos.

Para los clientes de Datamam, Tskaroveli dice que el web scraping es una forma de generación de prospectos, puede generar nuevos prospectos de múltiples fuentes o usarse para el enriquecimiento de datos para que los especialistas en marketing puedan comprender mejor a sus clientes, señaló.

Otro objetivo de los bots de web scraping son las campañas de marketing de influencers, donde el objetivo es identificar influencers que se ajusten al perfil del vendedor.

«Comience despacio y agregue fuentes de datos gradualmente. Incluso entre nuestros clientes empresariales, vemos un gran entusiasmo por comenzar con el web scraping como si fuera una bala de plata, solo para contratar parte de los scrapers más tarde porque se dan cuenta de que nunca los necesitaron se convirtieron en los datos». , dijo Ondra. “Comience por monitorear a un competidor y, si funciona para usted, agregue un segundo. O comience con personas influyentes en Instagram y agregue TikTok más adelante en el proceso. Trate los datos extraídos de Internet con cuidado como cualquier otra fuente de datos y seguramente le dará una ventaja competitiva”.

¡Consigue Aprendermarketing! Entregado diariamente a su bandeja de entrada de forma gratuita.

Las opiniones expresadas en este artículo son las del autor invitado y no necesariamente las de Aprendermarketing. Los colaboradores de los autores se enumeran aquí.

Agregue Aprendermarketing a su feed de noticias de Google.

Arriba el autor

William Terdoslavich es un escritor independiente con amplia experiencia en tecnología de la información. Antes de escribir para Aprendermarketing, también cubrió el marketing digital para DMN. Un generalista experimentado, William cubrió el empleo en la industria de TI para Insights.Dice.com y Big Data para Information ab Week. y Software-as-a-Service para SaaSintheEnterprise.com. También trabajó como editor de artículos para Mobile Computing and Communication y como editor de la sección de artículos para CRN, donde tuvo que lidiar con 20 a 30 temas técnicos diferentes durante un año editorial. Irónicamente, es el factor humano lo que impulsa a William a escribir sobre tecnología. No importa cuánto se esfuerce la gente por organizar y controlar la información, nunca funciona como ellos quieren.

Cómo el web scraping puede ser una valiosa fuente de datos

Arrastrarse primero, luego rascarse

Qué fechas de fiesta y cómo conseguirlas

Raspe la red, pero use algo de sentido común

Comentarios

Deja una respuesta Cancelar la respuesta