Web Scraping: qué es, legalidad, usos y el porqué de su valor diferencial
El avance de las nuevas tecnologías ha supuesto una revolución absoluta en el campo de la creación de contenidos. Cada persona es una fuente de información.
Estos avances han conseguido que cada vez haya más y más datos de acceso público. Datos que se analizan, y de donde sacar conclusiones que apoyen o lleguen a ser la piedra angular de las estrategias empresariales hoy en día.
Uno de las técnicas con más peso en este proceso es la conocida como web scraping. Pero, ¿qué es el web scraping?
Como otras muchas, es una táctica que ha adquirido mayor relevancia en los últimos años; sin embargo, sigue habiendo mucho desconocimiento al respecto de sus posibilidades, limitaciones o implicaciones legales.
Espero, con este artículo, poner un poco de luz en relación al web scraping, y ayudar con ello a clarificar la información acerca de una táctica que por si misma es perfectamente legal. Y que, utilizada tras el diseño de una acertada estrategia, puede aportar a las empresas un gran valor diferencial.
Web Scraping: qué es y sus orígenes
El Web Scraping es el conjunto de acciones ejecutadas por programas de software dirigidas a la extracción de grandes cantidades de datos de sitios web. Gracias a estos programas podemos automatizar la obtención de información, y hacerlo de un modo rápido, seguro y sin fallos. Para entender como surgieron, echemos un vistazo atrás en el tiempo.
Origen: Del Web Crawling al Web Scraping
El web scraping nace de la mano de internet. Con el objetivo de organizar toda la información disponible en la red, los primeros motores de búsqueda (WebCrawler, Lycos, Excite!, Altavista) desarrollaron lo que se conocen como web crawlers: robots para rastrear todas las páginas webs existentes.
Estos crawlers o spiders rastreaban internet, indizaban la información y esto permitía a los buscadores poder ofrecer a sus usuarios la información que necesitaban, dirigiéndoles a la web oportuna.
Por supuesto, esta es la base sobre la que se asientan los actuales buscadores, como Google, Bing, o Yahoo!.
Una vez entendido el web crawler, damos un paso más, y nos encontramos con el web scraping. Al igual que el web crawling rastrea para indexar y clasificar, el web scraping va un poco más allá y utiliza sus spiders para extraer la información, y almacenarla en el formato que necesitemos, para su posterior análisis.
Dónde Radica Su Valor
Sin embargo, no pensemos que la extracción en sí misma es el gran valor del web scraping. Su verdadera utilidad surge de la unión de los datos extraídos, en muchas ocasiones de varias fuentes, el posterior análisis, y la obtención final de conclusiones. Unas conclusiones que son verdadera inteligencia de cara a nuestra estrategia de negocio, a los esfuerzos en marketing, o al desarrollo del último producto.
De este modo, decenas de e-commerce saben el precio de los productos fijados por la competencia; webs de noticias conocen cuáles son los contenidos que mejor funcionan en otras webs; o los bancos de inversión obtienen información para saber donde colocar su capital.
¿El Web Scraping es legal?
Si. El web scraping en sí, es legal. De hecho, es importante que entendamos que el problema no está en el uso de los crawlers para rastrear la red, sino en el uso que damos de los datos conseguidos. Es por ello, que en España el web scraping es legal, excepto para su uso en varios escenarios bien definidos:
- A nivel de competencia, si con el scrapeo incurrimos en competencia desleal para con la web scrapeada, generando una duda razonable en el consumidor. Por ejemplo, si con dicha extracción se usa la reputación de la web escrapeada para favorecer la web que usa los contenidos no propios.
- Si estamos incurriendo en un delito desde el punto de vista de la propiedad intelectual.
- Dentro del marco de la Ley Orgánica de Protección de Datos (LOPD), cuando accedemos a datos de terceros sobre los que no se tiene consentimiento para su almacenamiento o tratamiento.
Para conocer más acerca de estos supuestos, creo que es muy interesante el artículo “¿Es legal el Web Scraping?: de web scraping y legalidad” del abogado especializado en nuevas tecnologías Rubén Vazquez.
Fuera de España
Si hablamos de esta práctica en otros mercados, o sobre plataformas de origen extranjero, las circunstancias se complican. Cada caso es un mundo.
Lo que si parece claro en ciertos mercados es que las grandes plataformas tratan de defender sus intereses, y el tratar de scrapear sus contenidos, supondrá para las empresas que scrapean tener que enfrentarse a costosos procesos judiciales que demuestren, en cada caso, que dicha extracción es acorde a ley. Interesante reflexión sobre este asunto por parte de Enrique Dans en “Web scraping: ¿legal, ilegal, o depende?” (Publicado el 15/8/17).
Para que se usa el web scraping
A continuación, listamos casos de uso que hemos llevado a cabo en Datary, pero también otros muchos que sabemos se realizan a diario en la red.
Estrategia de Negocio y Desarrollo de Producto
- Inteligencia de Negocio: a través de la extracción de grandes cantidades de datos (por lo general, provenientes de varias fuentes), su posterior limpieza y filtrado, las empresas obtienen conclusiones que de otro modo les sería imposible conseguir. Con esta inteligencia, las decisiones de negocio y marketing deberían ser mucho mas coherentes y acertadas.
- Para la Compra/Venta de Servicios o Productos: en este caso, uno de los sectores que más utiliza el web scraping es la industria inmobiliaria. Analizando las propiedades a la venta en webs de terceros se definen estrategias de negocio y desarrollo de producto.
- Análisis de las Reviews de Productos de tu Competencia: conocer la opinión de nuestros potenciales clientes sobre productos que son competencia al nuestro nos ayudará en el desarrollo de producto, en como y cuando llegar al cliente, y nos mostrará nuevas oportunidades de negocio.
Marketing y Crecimiento
- Estrategia de Contenidos: a la hora de generar contenidos interesantes para los usuarios, es clave conocer sus gustos e inquietudes. El web scraping nos puede ayudar en este aspecto. Si analizamos los datos de visualización de las páginas que a priori son interesantes para nuestros potenciales usuarios, podremos saber cuáles son los contenidos que tenemos que crear.
- Publicar Listados de Contenidos: utilizamos la extracción para crear páginas con un listado resumido de los contenidos ofrecidos por terceros, pero siempre enlazando a las webs origen de la información. Es el caso de agregadores de información por verticales, y beneficia tanto al usuario final como a los creadores de contenidos, ya que supone una nueva fuente de tráfico.
- Conocer las Tendencias del Momento: analizando en medios sociales que es o no tendencia, podemos actuar una vez más sobre nuestra estrategia de producto, marketing o negocio.
- El Copy Acertado: podemos saber que verbos, o estructuras gramaticales llaman la atención de los lectores, analizando, por ejemplo, los títulos de los vídeos en YouTube con más de 1 millón de visualizaciones.
- Páginas de comparación de precios: una nuevo uso legal del web scraping es extraer el precio de productos que nosotros vendemos, pero en páginas de terceros. Con esos datos, creamos páginas comparativas para que los potenciales clientes vean un valor diferencial con respecto a la competencia. Es muy utilizado dentro del sector e-commerce.
- Listado de eventos: para extraer información sobre los eventos de un determinado vertical en un área geográfica.
Otros Usos Interesantes
- Documentación Pasada, Útil a Día de Hoy: En abogacía, se usa el web scraping para conocer las circunstancias e información de casos pasados, y de este modo aplicar los conocimientos a los procesos en curso.
- En Recursos Humanos: se utiliza para analizar perfiles en redes sociales y así poder dar con candidatos idóneos para los puestos disponibles.
Ventaja Competitiva Sustancial
Tras analizar mucha información al respecto, y sobre todo, viendo lo que cada día nos solicitan nuevos clientes, de lo que si estamos seguros es del valor diferencial que ofrece el web scraping a las empresas que lo utilizan.
Sobre todo para aquellos que piensan más allá, y tratan de innovar en su uso.
Porque pone a nuestra disposición más y mejor información que poder utilizar en nuestras estrategias; nos permite sacar conclusiones directamente de las opiniones o acciones de nuestros clientes; y aunque avanza rápido como la espuma, su uso todavía es residual, y por tanto, más que diferencial.
Cada vez hay más datos que son de acceso público, subidos por los propios usuarios, por lo que un inteligente y legal uso del web scraping ofrece sin duda una ventaja competitiva sustancial.
Cover Photo by Kevin Spencer.