La ciencia de datos encontró su “tormenta perfecta” en la pandemia

En solo un par de meses, las personas dejaron de salir de sus casas, las fronteras cerraron, las cadenas de suministro se detuvieron y los hábitos de consumo dieron un giro dramático en todo el mundo. ¿Qué interpretación haría de este escenario una inteligencia artificial entrenada para entender el mundo con base en reglas sólidas? Spoiler: una incorrecta.

No solo los humanos se vieron afectados por los grandes cambios que impuso la pandemia, muchos productos y proyectos basados en ciencia de datos están viviendo también su propia crisis, una que deja en evidencia las insuficiencias de estas tecnologías frente a un mundo cambiante. Al verse enfrentados a información y patrones demasiado diferente de aquellos para los que fueron entrenados, los modelos de ciencia de datos pueden caer en una confusión profunda. Si bien algunos se adaptan rápido a nuevos escenarios, los cambios que operaron durante la pandemia fueron tan significativos que realizar predicciones o proyecciones desde esta información es muy poco confiable. El mundo en 2020 dista mucho del de 2019 y las máquinas, con información obsoleta, no están consiguiendo comprenderlo.

Por más abstracto y complejos que puedan ser conceptos como “ciencia de datos” y “machine learning” (ML), lo cierto es que están profundamente enlazados con e influenciados por el mundo real. Especialmente cuando se trata de empresas data-driven o que confían en soluciones de ML para su operación o toma de decisiones. En este contexto, la COVID-19 ha sido para el mundo de las tecnologías de la información un “stress test” sin precedentes y de escala global. “La pandemia esencialmente empujó a todos los sistemas a sus extremos, consiguiendo una exposición de lo bueno, lo malo y lo feo de sus funcionamientos internos”, explica Xiao-Li Meng, profesor de Estadística en la cátedra Whipple V. N. Jones de la Universidad de Harvard. “Se han puesto a prueba sus capacidades de resiliencia (o su falta de ella) como integrantes del ecosistema humano. Hemos visto esta prueba de resistencia en el sistema de salud pública, en sistemas sociales y económicos, en justicia y sistemas regulatorios, en educación, en producción, en las cadenas de suministro y en la industria de servicios, solo para mencionar los obvios”, agrega.

En otras épocas este no sería un problema demasiado extendido, pero en los últimos años se ha visto un crecimiento exponencial del uso de big data y machine learning en las organizaciones, que se extiende desde la automatización de procesos industriales hasta el apoyo en la toma de decisiones, pasando antes por los algoritmos de recomendación de compra, los ads, el internet de las cosas y un largo etcétera. Sin ir más lejos, basta con revisar la reciente mesa redondeaorganizada por IT Masters Mag, en la que destacados CIO de empresas mexicanas compartieron sus planes para ir incluso más allá: hacia la hiperautomatización.

Un ejemplo claro de cómo la pandemia afecta a los sets de datos y procesos de analítica es el de las predicciones climáticas. Una de las actividades que más información entrega a los modelos predictivos es el vuelo comercial. Los aviones cuentan con una gran cantidad de sensores que recopilan datos climáticos al surcar los cielos. Con la disminución profunda del tráfico aéreo el volumen de información se reduce también significativamente. Con menos información, los modelos predictivos deben ser reeducados, pero si los datos faltantes representan una gran porción de la información que se usó para construir el modelo, una reestructuración completa del proceso y de sus prácticas de optimización se haría necesario

De acuerdo con Micheal Berthold, CEO de la empresa de análisis de datos de código abierto KNIME, hay tres tipos de escenarios a los que se están enfrentando actualmente este tipo de modelos:

Los datos y los procesos cambiaron: En el escenario más dramático, el cambio de los sistemas de fondo es tal que no solo requiere la actualización de los procesos de ciencia de datos, sino también revisar las suposiciones que dieron forma a su diseño inicial. Esto implica casi partir de cero, con una nueva comprensión de los datos del negocio, nuevas fuentes de información y la optimización de los modelos. Un ejemplo de este escenario son las predicciones de tráfico vial, el comportamiento de compra, y las cadenas de suministro (en especial en sectores muy afectados, como el de Salud).
Los datos cambiaron y los procesos se mantienen: Cuando solo ha variado, por ejemplo, la frecuencia de compra en línea de un producto específico, el escenario es menos grave y puede estar dentro de las estimaciones realizadas al crear el modelo. Siempre y cuando el proceso de ciencia de datos haya sido diseñado con la flexibilidad necesaria para identificar la anomalía, interpretarla y aplicar cambios a sus propias reglas operativas.
Los datos y procesos siguen funcionando: Para muchos sistemas basados en ciencia de datos, la vida va a seguir igual que siempre. Los modelos predictivos de mantenimiento de equipos, por ejemplo, no cambiarán, ya que las fallas se detonarán tras la misma intensidad de uso que antes de la crisis sanitaria. Pero no es razón para descansar; los equipos de ciencia de datos deben preguntarse aquí “¿estamos seguros de que no están cambiando algunos datos? Hay que tener presente que algunos cambios son instantáneos, mientras otros solo aplican gradualmente.

La respuesta: simplificar

Para tener una mejor comprensión del impacto de la pandemia en la ciencia de datos de las organizaciones y de qué forma han respondido, el MIT Sloan Management Review contactó a un gran número de científicos de datos y directores de analítica. Todos respondieron que, sin tomar en cuenta si la pandemia causó que creciera o bajara la demanda por sus productos y servicios, operó un casi instantáneo movimiento desde la analítica avanzada, que se centra en la predicción y la optimización, hacia analítica descriptiva, cuyo enfoque se limita a los reportes y la visualización de datos. La analítica descriptiva permitió a las compañías tener un entendimiento mayor de lo que estaba ocurriendo.

“Por culpa de la volatilidad de la situación, el tiempo de todos los ciclos de reporteo se comprimió dramáticamente. La demanda de dashboards en tiempo real incrementó. Como lo describió el líder de una compañía global de bienes de consumo: No estábamos preocupados por predicciones detalladas, solo intentábamos discernir correctamente la forma que estaba tomando la distribución”, señaló la publicación.

Otro ejemplo es Ford, que enfocó sus esfuerzos de analítica hacia la resolución de problemas críticos surgidos en la pandemia, como el retraso del transporte en el puerto de Veracruz.

Algunas compañías realizaron modelos descriptivos para aislar el impacto generado por la pandemia, y esperan que este trabajo les ayude a generar después modelos predictivos para entender mejor la “nueva normalidad” que se avecina.

David Mosen, doctor en biomedicina y científico de datos senior en Crayon, tras estudiar exhaustivamente la pandemia y su efecto en la ciencia de datos, llegó a tres puntos clave para salir bien parado de este periodo:

Planificación: Cuando sea relevante, los equipos deberían anticiparse y realizar análisis de datos exploratorios (EDA) para entender cómo adaptar los modelos ML para robustecer su respuesta a incidentes. También deberían desarrollar guías para mejorar la preparación y minimizar los efectos que eventos únicos como el COVID-19 tiene sobre los modelos.
Agilidad: Si es técnicamente viable, estadísticamente posible y sensible económicamente, los modelos en las aplicaciones de negocio deben ser re-entrenados con mayor frecuencia y menos información. Esto es importante para contexto como el actual y su objetivo es que la empresa sea más ágil y capture mejor la naturaleza cambiante de la sociedad humana que están modelando.
Retrospectiva: Cuando los datos históricos son afectados o la afluencia de información se vuelve intermitente, los patrones no son representativos de tendencias y comportamientos futuros. Las razones, asociaciones y consecuencias esperadas deberían ser documentadas, con el fin de enfrentarlas mejor a futuro.

El proceso que la pandemia desató en los proyectos de machine learning, AI y BI tendió a la simplificación, y eso puede ser un poco alarmante para los impulsores de las aplicaciones más sofisticadas de estas tecnologías, pero también está dando entender a muchas empresas que una vez que se cuenta con las herramientas y el personal para implementar este tipo de soluciones, se pueden adaptar incluso a los escenarios más exigentes sin perder todo lo construido. En caso contrario, las organizaciones están descubriendo también que era necesaria una flexibilidad mayor, o una actualización de sus sistemas de ML para permitir la adaptación a un ecosistema cambiante.

Es de esperar que esta “tormenta perfecta” sirva de aprendizaje para que la ciencia de datos en las organizaciones enfrente de mejor forma los desafíos del futuro.

La ciencia de datos encontró su “tormenta perfecta” en la pandemia

La respuesta: simplificar

Leer también:

Artículos relacionados

UDP: Cómo garantizar velocidad sin sacrificar seguridad en entornos críticos

Minería de datos: ¿qué es, por qué debe usarse y cuáles son las actividades típicas?

Código Rss

Código Rss