Las Fases que Definen un Modelo Predictivo

“¿Y si pudiéramos predecir qué pasará mañana? ¿O pudiéramos saber qué decisión es, estadísticamente, más oportuna para mi empresa?”

Gracias a la tecnología, podemos: a través de los modelos predictivos.

Pero ¿qué es un modelo predictivo? Cuando hablamos de modelos predictivos nos estamos refiriendo a un conjunto de técnicas de análisis estadístico gracias a las cuáles podemos anticipar o prever situaciones futuras.

Entre otros campos, los modelos predictivos llevan años utilizándose en la industria financiera como base para el trading algorítmico.

Sad photo of Wall Street traders reacting as stock market plunges. pic.twitter.com/671pG4Db4L— Binyamin Appelbaum (@BCAppelbaum) 5 de febrero de 2018

Sin embargo, tienen todavía muy poca repercusión en otras industrias donde ese conocimiento aventajado, resultaría muy útil para, por ejemplo, aumentar las ventas.

Para que entiendas cómo funcionan los modelos productivos en detalle y puedas decidir si aplicarlos en tu campo de negocio, me gustaría explicarte cuáles son las fases que lo componen.

¡Empecemos!

Cómo se crea un modelo predictivo

Los modelos predictivos se crean en base a 4 fases de trabajo:

Fase 1: Obtención de los Datos

La primera fase de un modelo predictivo se centra en la obtención de datos, cuantos más mejor. Sin embargo, no podemos equivocarnos: no nos vale cualquier cosa.

Para que nuestro modelo predictivo sea eficaz, es imprescindible que las series de datos que adquiramos sean:

Históricas: para poder aprender cómo se ha comportado un registro durante largos periodos de tiempo.
Actualizadas: para poder comparar los datos reales con nuestras predicciones y así poder corregir el error y mejorar progresivamente el desempeño de nuestro modelo.
Homogéneas: los datos se tienen que haber conseguido con metodologías de obtención uniformes, y por tanto los datos deben ser objetivos, para poder comparar variables entre sí.

Este trabajo de búsqueda, documentación, formateo y limpiado de los datos suele ser el más tedioso de realizar. Es por ello que lo automatizamos desde Datary, ofreciendo un catálogo de datos curados y listos para ser usados.

OpenDataMarket-Datary — Open Data Market, plataforma de datos abiertos desarrollada por Datary.

Fase 2: Evaluación de Dependencias

Si queremos predecir el resultado del próximo partido del F.C Barcelona, la variable “¿juega Messi?” tendrá mucha más influencia en nuestra predicción que la variable “nº de zurdos que hay en el campo”.

Lógico ¿no?

Este es un ejemplo tonto, pero es clave para entender que, de cara a la realización de una predicción, no todos los factores tienen la misma repercusión en la ecuación final.

Igual de lógico, y también igual de relevante, es entender que no basta con analizar los resultados históricos del mismo hecho, sino que es imprescindible analizar también todas aquellas nuevas variables que puedan influir sobre el resultado de éste.

Sino lo entendemos así, cometeremos un error muchas veces repetido por otros en el pasado…

“Do you know anyone using Netflix?“.
“Investor concern over the thread of new technologies is overstated“, Blockbuster analyst report 1999.

Netflix-Vs-Blockbuster — El crecimiento de Netflix (y la caída de Blockbuster). / Drift

En este sentido, imaginemos que queremos predecir los niveles de polen en España para la próxima primavera. Lo correcto sería no solo fijarnos en los niveles ambientales de polen a nivel histórico, sino también en variables como:

La temperatura y precipitación: que condicionan el momento de floración y, por tanto, el inicio de la temporada de polen.
La masa forestal: ¿algún incendio ha desolado los bosques de la zona recientemente? Una catástrofe de ese tipo tiene muchos efectos secundarios, como por ejemplo la existencia de menos polen en el ambiente.

Olivos-Jaen — *La cantidad de olivos que hay en Jaen, influye no sólo en su producción de aceite de oliva, sino también en los picos de niveles ambientales de Olea año a año*. / Cadenaser.com

El viento: responsable del transporte de las partículas de polen de unas zonas a otras.

Fase 3: Modelado

Ya tenemos datos históricos, actualizados y homogéneos de aquellas variables que hemos determinado que van a influir en nuestra predicción. Ahora llega la hora de ejecutar el modelado estadístico.

Siguiendo con el ejemplo citado, el objetivo es definir una fórmula con la que obtengamos el número de partículas de polen en el aire, en función del valor que adquieran las otras variables que van a influir sobre la predicción.

¿Suena complejo, no? Realmente lo es.

De ahí que, en vez de reinventar la rueda con cada modelo predictivo, se haga uso de fórmulas ya definidas en el campo de la Estadística. En función del tipo de datos y del tipo de dependencia funcional entre las variables que tengamos, aplicaremos una técnica de modelado predictivo u otra.

Para conocer más sobre las técnicas de modelado predictivo, te recomendamos eches un vistazo a este enlace.

Fase 4: Correcciones

Una vez definido nuestro modelo, es importante ir corrigiéndolo para que mejore progresivamente en el desempeño de la predicción.

Esta corrección se podrá realizar de forma manual, por ejemplo, definiendo nuevas dependencias funcionales, o se podrá dotar al sistema de la capacidad de aprender por sí mismo a ir corrigiendo su error. Esta última técnica se conoce con el – muy desgastado – nombre de Machine Learning.

Machine-Learning-Datary — El Machine Learning, según Gartner, marcará una nueva era. / Berkeley Labs Media

Pero no nos liaremos más, y de machine learning os hablaremos en detalle en futuros artículos. Si te ha gustado éste, acuérdate de compartirlo y no dejes de comentarnos tus opiniones en la sección de comentarios.

¡Un abrazo!