Cinco interrogantes clave sobre Ciencia de Datos e Inteligencia Artificial

Un nuevo informe realizado por Dataiku explora qué dificultades ha tenido la ciencia de datos para masificarse entre las organizaciones durante los últimos años y plantea cinco preguntas para aproximarse (o revaluar) un proyecto de este tipo en una empresa. El documento recorre los tipos de científicos de datos que existen, cómo la administración juega un rol clave en la atracción y retención de talento y en qué momento hace falta dar un paso atrás y pensar de nuevo una iniciativa.

Además, es posible revisar algunas de las tendencias que estarán sonando fuerte en el mundo de la inteligencia artificial, como el Machine Learning Automático (AutoML), el impacto del open source y los peligros de que la inteligencia artificial se vuelva una disciplina más cerrada.

Índice de temas

1. ¿Qué es exactamente un proyecto de datos o de ciencia de datos?

Por todos lados se multiplican los proyectos de datos y los proyectos de ciencia de datos. Pero, ¿son lo mismo? ¿son intercambiables?

Si no se tienen claras sus definiciones, llevar a buen término los proyectos o incluso definir inicialmente sus intenciones se vuelve un trabajo con consecuencias potencialmente catastróficas. Según explica el estudio de Dataiku, los Proyectos de datos son simplemente aquellos cuyo objetivo es construir conocimiento avanzado, o insights, para utilizar la expresión más popular.

Un modelo de atribución de marketing que intenta generar insights para una estrategia de campaña, o las iniciativas de mantenimiento preventivo en las industrias que han avanzado en el IoT son ejemplos de proyectos de datos. Pueden reconocerse porque necesitan una aproximación estadística simple, combinada con un conocimiento básico del negocio.

Por otro lado, los Proyectos de Ciencia de datos incluyen generalmente información de fuentes no-tradicionales, que es agregada al sistema para obtener una aproximación y un potencial de resultados más cercano al machine-learning. Esta opción es ostensiblemente más compleja y requiere una gran cantidad de información para generar insights válidos.

Tanto es así, que los proyectos de Ciencia de datos suelen requerir la colaboración de varios científicos de datos, o de proyectos que se concentran en una tarea específica pero cuyos datos pueden alimentar de información a otras iniciativas en tópicos más distantes.

2. ¿Qué tipo de científicos de datos deberían estar contratando las empresas?

Según describe el informe, los científicos de datos vienen en muchos sabores y colores. No todos van a funcionar de manera óptima en todo tipo de proyectos. Tampoco es que exista una categoría mejor que la otra: todo depende los objetivos del negocio y del proyecto.

Otro elemento a considerar es la escasez de profesionales calificados, ya que el 80% de los científicos de datos que cuentan con doctorados están actualmente contratados por Google.

El documento divide a los científicos de datos en siete categorías:

Leyendas: Son los que pueden funcionar en todo tipo de proyecto. Han trabajado en el rubro desde mucho antes de que la “ciencia de datos” fuera siquiera un concepto, por lo que sus habilidades están muy cargadas hacia las matemáticas y la programación, y muy probablemente manejan con facilidad varios lenguajes informáticos.Por si fuera poco, también están capacitados para entender el negocio.
¿La mala noticia? Probablemente ya son empleados de alguna tecnológica grande como Google o Facebook.
Generalistas: Parecidos a las Leyendas, pero con menos especialización y un rango de conocimientos más acotados. Sin embargo, pueden desempeñarse bien tanto en equipos grandes como levantando un proyecto de ciencia de datos por sí mismos.
Estadistas: Extremadamente instruidos en estadística, por si el nombre ya no lo dejaba claro. Esta es una habilidad que todo científico de datos debería tener, pero quienes se especializan en profundidad suelen tener una cercanía mayor con el área de negocios, lo que puede ser fundamental para ciertos proyectos.
Sin embargo, es muy posible que no sepan trabajar con bases de datos demasiado extensas y complejas.
Aficionados: No hacen ciencia de datos como su rol principal. Suelen dedicarse más bien a la ingeniería de software. Sin embargo, pueden apoyar iniciativas de ciencia de datos sin tener que tomar un curso específico, y pueden servir como un comodín para cuando no existe un departamento especializado en ciencia de datos.
Ingenieros de Machine Learning: Son menos hábiles en estadísticas que los Estadistas y menos fuertes en desarrollo de software que los Aficionados. Lo que sí traen a la mesa es una comprensión del modelo de desarrollo, la arquitectura de software y el modelo de despliegue necesario para proyectos con datasets muy extensos. Esto suele servir más en proyectos o empresas en las que el modelo es fundamental, o en las que el modelo mismo es el negocio.
Expertos Verticales: Es un Generalista que trabajó durante muchos años en una industria específica y obtuvo la experiencia y el conocimiento de negocios necesarios para resolver todo tipo de problemas en ese campo. Es una elección ideal para proyectos que se mantengan contenidos dentro de una vertical específica.
Administradores de Ciencia de Datos: Puede venir de cualquiera de las categorías anteriores, pero su foco es la productividad del equipo, la resolución de problemas y en general la administración del proyecto.

3. ¿Por qué hay tantos científicos de datos abandonando sus empleos?

Glassdoor clasificó a los científicos de datos como el mejor trabajo que se puede tener en Estados Unidos el 2018, LinkedIn los incluyó en su top 10. Sin embargo, al mismo tiempo, el Finantial Times publicó un artículo explicando que este tipo de profesionales lideran la lista de desarrolladores buscando trabajos.

¿Qué está pasando entonces? Según Dataiku, todo se debe a que la demanda por estos especialistas es tan grande que fácilmente pueden encontrar una posición mejor pagada o con mejores beneficios en otra organización.

Pero eso no es todo. Otra razón de peso es que las compañías no saben retener a este tipo de trabajadores. Y no se trata solo de darles una mejor paga, las razones incluyen trabajar en proyectos mal diseñados, no contar con los equipos correctos para realizar su trabajo, o simplemente contar un departamento de datos demasiado aislado del resto de la organización.

Mantener y atraer talento seguirá siendo uno de los problemas más grandes para los departamentos de IT.

4. ¿Por qué colaborar?

Desde que Forbes escribió sobre colaboración en el mundo de la ciencia de datos el 2017 ha sido un tópico popular entre los especialistas. Quienes proponen un modelo colaborativo para los equipos de datos presentan varios argumentos para justificar su eficiencia y efectividad, pero también existen mucha confusión respecto a qué realmente significa la colaboración en este contexto.

El informe resume la relevancia de esta mecánica en los siguientes puntos:

Permite que el trabajo se distribuya entre varios científicos de datos, pero es necesaria cautela ¿realmente el proyecto es tan grande que hacen falta varios profesionales trabajando en paralelo? Más personas no significa necesariamente mayor eficiencia, pero en los casos que sí, los beneficios pueden ser múltiples.
Es posible que equipos con menos experiencia trabajen con otros más senior, aprovechando potencialmente mejor los recursos.
La colaboración permite que el trabajo se divida entre distintos roles al interior de un equipo de datos: como se detalló en la pregunta dos, los cientistas de datos varían mucho en sus funciones. Con una experiencia colaborativa es más fácil y eficiente dividir las tareas de un proyecto para explotar de la mejor forma posible el potencial de cada uno.

5. ¿Llegará mi compañía a un momento en que pueda desplegar y administrar muchos modelos predictivos?

“Bueno, nada es imposible; pero no va a pasar de forma mágica. Si este era uno de tus objetivos del 2018 y no estás ni cerca de alcanzarlo, da un paso atrás y reevalúa”, indica sardónicamente el estudio. Lo cierto es que el despliegue de modelos predictivos múltiples es un reto importante para las organizaciones que planeen trabajar con ciencia de datos, y requiere una base sólida instalada tanto a nivel de profesionales como de cultura organizacional.

De todas formas, Dataiku da algunos consejos para llegar a este objetivo:

Mirar a las organizaciones que ya lo han hecho y aprender de ellas, especialmente a aquellas que estén en la misma industria o que trabajen el mismo tipo de proyectos de ciencia de datos.
Hacer la pregunta: ¿Qué significa para el negocio el despliegue de modelos predictivos? Dependiendo de la respuesta, determinar qué herramientas permitirán que esto pase de forma rápida y simple.
Determinar las situaciones en las que sea necesario manejar modelos múltiples y pensar estrategias que permitan evitarlas: a veces la respuesta es simplificar, no complejizar.