Blog INTERDIGITAL.es
Tienda Online - Ecommerce Web Corporativa Analítica Web

Web scraping: qué es, análisis y prevención

En términos de competencia entre e-commerce hay una serie de variables clave que harán que, en términos generales, el consumidor se decante por tu producto o por el de otro comercio. Nos estamos refiriendo al precio, al plazo de entrega y a los gastos de envío; mientras que los dos últimos son bastante estables y fáciles de controlar (tanto por el propio usuario como por los empresarios) la situación no es ni mucho menos tan sencilla cuando hablamos de los precios.
La competencia en Internet es muy amplia y el acceso del usuario a la oferta, sencillo. Según los datos volcados por el Estudio Anual Ecommerce 2016 de la IAB, de los 21.5 millones de internautas en España, el 74% de ellos realizan compras online. Estos números tan significativos, que presumiblemente irán en alza, han creado nuevos hábitos de compra; realizar comparativas de precios es uno de los pasos indispensables que da prácticamente cualquier comprador online, y esto obliga a los e-commerce a modular el precio de sus productos si quieren que sean competitivos.
Este es el motivo por el cual los e-commerces deban mantener un control sobre los precios de la competencia para así asegurarse una parte de las ventas. La toma de decisiones se hace continua a la hora de decidir en qué punto los precios son realmente competitivos, o si situarse por debajo del precio-media es una buena idea, o si mantener el precio un poco más alto sostendrá una idea de mayor calidad… Sin embargo, en general, es necesario mantener un control de los precios globales para asegurar el interés de tus clientes.
La necesidad de obtener esta información de forma regular y actualizada ha llevado a la práctica continua de cotejar los datos de los otros e-commerces, lo cual ha terminado acuñándose bajo el término “web scraping”, es decir, la extracción de datos de una o varias páginas web. Más concretamente, y referido a la obtención relativa a los precios de la competencia, estaríamos hablando de benchmarking de precios.
Los usos que se le puede dar a esta técnica son variados y aunque aquí nos centraremos principalmente en la monitorización de los precios de la competencia; también existen otros usos prácticos como son la creación de una base de datos o la recopilación de datos diversos centrados en un mismo ámbito para mostrarlos al público (sistema en el que se basan webs como, por ejemplo, Booking).
El web scraping puede llevarse a cabo de forma manual, copiando y pegando los contenidos de las diferentes webs a nuestra propia base de datos; sin embargo, aunque este sistema sea muy fiable, requiere una inversión de tiempo altísima, así como visitar regularmente las mismas páginas una y otra vez para comprobar si los precios varían. Por esta razón, el método más utilizado es el que requiere de herramientas o bots que rastrean las web y copian sus contenidos; si el rastreo se realiza de forma regular se pueden detectar las oscilaciones de precios del mercado online y utilizar toda esa información a favor propio.
A la hora de controlar este “scraping” de precios, las medidas que puedes tomar son dos: o bien evitar el análisis de tu propia web y de esa manera impedir la extracción de datos o bien analizando los datos de la competencia para así tener en tu poder una información de gran importancia que te permitirá ponerte al mismo nivel de mercado.

Impedir la extracción

Aquí recopilamos algunas medidas preventivas para evitar los ataques de web scraping:
  • Dificultar el rastreo: Puedes hacer que la accesibilidad a los datos sea difícil gracias a la estructura que emplees en su presentación o a la manera en que la web presenta dichos datos. Las web que se encargan de realizar estos procesos rastrean los datos en formato de texto, de modo que si los datos se encuentran en forma de imagen o en flash, es menos probable que los consigan.
  • Límite de conexiones: Reduciendo el número de peticiones/conexiones a la página es otro modo de limitar la problemática. Sin embargo, es necesario llevar esta práctica a cabo con mucho cuidado, ya que puedes malograr el bot de Google, incurriendo en un gran número de problemas.
  • Actualización de los HTML tags: introducir leves cambios en los tags como añadir nuevas etiquetas o comentarios dificultará la tarea de los scrapers programados para centrarse en determinados tipos de contenido.
  • Bloquear directamente fuentes maliciosas de las que se tenga conocimiento.
  • Utilizar cookies o Javascript: Introducir un cálculo de Javascript complicado es otra opción para verificar que el usuario procede de un navegador web real.
  • Detección de las herramientas de site scraping: la firma identificable que consta en la mayoría de estas herramientas sirve para detectarlas y, por consiguiente, bloquearlas.

Analizar a la competencia

Como decíamos antes, hay diversos métodos a la hora de llevar a cabo tu propio web scraping:
  • Bots a medida: Es la opción más efectiva, puesto que no sólo recogerás los datos de forma automática y ahorrás muchísimo tiempo, sino que programarás la recogida de datos de forma personalizada para así obtener datos de calidad. Sin embargo, esta opción es costosa debido a la configuración del proceso.
  • Plataforma de Price Scraping: contar con alguna de estas plataformas de servicios te resultará en tu análisis de los datos de la competencia. Cada una de ellas tiene una metodología diferentes, de modo que podrás elegir la que más te convenga.
  • Forma manual: Cotejar los datos de forma manual es efectivo en cuanto a la solidez de los datos, pero muy poco productivo en términos de tiempo.
Desde INTERDIGITAL.es podemos ayudarte en la tarea de tener un dashboard comparativo de tus precios con los de la competencia. Consúltanos para más información.