Diario de un científico de datos

En octubre de 2012, Thomas H. Davenport y D.J. Patil describieron la profesión de científico de datos como la más sexy del siglo XXI en su famoso artículo publicado en la Harvard Business Review.

Han pasado 4 años y muchos de los que nos dedicamos a la ciencia de los datos coincidimos en que, sin lugar a dudas, es una profesión muy estimulante que requiere de una capacidad de abstracción elevada, grandes conocimientos tecnológicos y mucha creatividad. Cada proyecto es diferente y motivador, ya que en cada uno de ellos surgen varios retos a los que hay que enfrentarse mediante la investigación, la imaginación y la técnica. Sin duda, no podría estar más de acuerdo con Davenport y Patil.

La “ciencia de los datos” es una disciplina muy amplia que abarca multitud de teorías y técnicas que pueden aplicarse en cualquier campo o sector utilizando infinidad de tecnologías disponibles. Su adopción está siendo exponencial gracias al desarrollo digital de la civilización y a las nuevas tecnologías que han cambiado el panorama de análisis.  Los datos han pasado de ser un bien escaso difícil de conseguir y caro de mantener, que se analizaban en supercomputadores con técnicas analíticas sencillas que requerían de elevados tiempos de cálculo, entre horas y días, a tener toda la información que queramos a nuestro alcance y procesarla casi en minutos o segundos con técnicas más sofisticadas.

Actualmente, los científicos de datos tenemos la misma sensación que un niño en una gran juguetería con todo a nuestra disposición, sólo tenemos que pensar qué caja abrir y ponernos a jugar. Nuestros juguetes diarios son las tecnologías de análisis, las técnicas o los algoritmos y por supuesto, los datos. Cada juguete requiere unas capacidades diferentes y el científico de datos se enfrenta constantemente a retos técnicos que tiene que resolver con una mezcla de investigación, reflexión y creatividad. Aunque es imposible disponer de todas las capacidades necesarias para dominar cada juguete, el científico de datos es capaz de desarrollar conocimientos o capacidades técnicas y tecnológicas en un breve período de tiempo. Estos retos son los que, a pesar de su gran dificultad, motivan al científico de datos y alegran su día a día. No os podéis ni imaginar lo divertido que es que nos falten piezas en el juego y tengamos que improvisar con lo que tenemos a nuestro alcance. Para los que nos dedicamos a esto, vivir en el caos y la incertidumbre es la mejor medicina para combatir el aburrimiento de los trabajos monótonos.

Pero no todo es alegría y felicidad en el mundo de la “ciencia de los datos”. Durante este juego con los datos, el científico se enfrenta continuamente a retos, entre los que figuran: la calidad de los datos, o más bien la ausencia de la misma, convirtiéndose  en el pepito grillo de la organización; la frustración al no encontrar resultados relevantes o modelos con alta capacidad predictiva; el miedo a que los resultados obtenidos se deban a una mala interpretación de los datos o usos inadecuados de los modelos, llegando a conclusiones erróneas que pueden perjudicar a la compañía; y por supuesto, el riesgo a caer en la tentación de torturar los datos hasta que confiesen el mensaje que esperan tus superiores.

Aunque tengo que reconocer que éstos no son los desafíos más importantes de la “ciencia de los datos”. Aquellos con mayor complejidad son los que surgen en la interacción diaria con los miembros de otras áreas con las que colaboran los científicos de datos en el desarrollo de su actividad. En particular, en la gestión de las expectativas del resto de interesados que no tienen por qué conocer la ciencia de los datos y sus peculiaridades. Voy a mostrar algunos ejemplos de frases o preguntas recurrentes a las que se enfrentan los científicos de datos en su día a día, junto a un breve razonamiento.

 “Hay que establecer el cronograma del proyecto: ¿cuándo estará terminado? o ¿cuánto tiempo es necesario?” Éste es el primer reto al que nos enfrentamos continuamente, estimar el tiempo en el que realizaremos las tareas. En muchas áreas, la experiencia permite llevar a cabo estimaciones de los tiempos necesarios para el desarrollo de las mismas, pero en la “ciencia de los datos”, cualquier análisis es diferente al anterior, por lo que sin conocer los datos con los que se va a trabajar, las técnicas que se adecuarán a los mismos y los resultados que se van a obtener, ¿cómo va a conocerse el tiempo necesario?. Además, el modelado o análisis de datos es un proceso iterativo en el que, en cada paso, con el conocimiento extraído en el paso anterior se pueden realizar análisis adicionales, utilizar otras técnicas o tecnologías más adecuadas que a priori no lo parecían o incluir nuevos datos que durante el análisis demostraron ser una fuente adicional de mejora. Por norma general los análisis, modelos o resultados, mejoran en cada paso. En este sentido, los científicos de datos trabajan con metodologías ágiles antes incluso de saber lo que son. El primer paso nos aporta el producto mínimo viable y el final suele coincidir con la fecha de terminación marcada. Si se dispusiese de más tiempo, se obtendrían mejores resultados, pero con rendimientos decrecientes. El reto del científico de datos es determinar el equilibrio entre la mejora marginal obtenida y el esfuerzo empleado, evitando dejarse llevar por su afán de extraer el máximo conocimiento posible dedicando más tiempo del conveniente.

“Hay que hacer un modelo predictivo: ¿cuál va a ser el éxito?” Él éxito de un modelo predictivo depende de muchos factores. Algunos exógenos al científico de datos, como por ejemplo, que los datos tienen buena calidad (mucho suponer), que la información relevante está disponible, por lo que no habría que realizar cargas o capturas adicionales (es muy raro que esto suceda) y que las tecnologías estarán disponibles sin restricciones, por ejemplo, acceso de escritura a las bases de datos, capacidad de computación elevada durante las 24 horas o posibilidad de implementar cualquier técnica en los sistemas informáticos de las compañías (esto sería todo un sueño). Suponiendo que los factores externos no mermarán el éxito del modelo predictivo, ¿cómo podemos predecir el grado de acierto que obtendremos en un problema con la información disponible sin analizarla? A priori el científico de datos podrá asegurar que habrá un modelo y éste tendrá la máxima capacidad predictiva con la información disponible, pero resulta complicado estimar o cuantificar con una precisión adecuada el acierto u otras métricas. Es necesario bucear en los datos para poder establecer una estimación fiable. El reto del científico de datos consiste en explicar esto a los promotores del proyecto sin que piensen que no tiene los conocimientos suficientes. De hecho, lo más peligroso es asegurar el grado de éxito de un modelo predictivo sin haber realizado análisis previos. Del mismo modo, estimar a priori el Business Case de un modelo predictivo es cuestión de magia.

“¿El resultado del proyecto es bueno o malo?” Esta es una pregunta habitual durante la presentación de resultados, donde a veces se evalúa con demasiada ligereza todo el proyecto mediante una métrica. Es normal que aquellas personas que no sean expertas en la materia quieran tener un dato en el que apoyarse para valorar el resultado, pero el esfuerzo del científico de datos no suele verse reflejado en el éxito del modelo o en las conclusiones del análisis, aunque sí es cierto que existe cierta correlación. Un 68% de acierto puede ser alto o bajo de forma subjetiva. Para valorar un modelo deberían compararse los resultados con los que se obtendrían sin el modelo o con el modelo previo, si existiese. Con este proyecto, habría que responder los siguientes interrogantes: ¿ha mejorado la toma de decisiones de la compañía?, ¿han mejorado las predicciones que se tenían previamente?, ¿se han simplificado los procesos? Es importante recordar las palabras del estadístico George Box: “All models are wrong, but some are useful”. Yo sería más rotundo. Los  modelos per sé no sirven para nada, el uso del conocimiento extraído del modelo o análisis es el que aporta valor al negocio. El reto del científico de datos es evitar presentar los resultados numéricos y centrarse en mostrar el conocimiento adquirido por el modelo o análisis y su uso en la mejora del negocio.

 “El proyecto ha terminado, buen trabajo. ¿Qué hacemos con esto?” Por desgracia, la labor del científico de datos no termina cuando se dispone del modelo o del análisis. Es necesario que ambos aporten valor a la compañía y para esto hay que activarlos. Dada la falta de conocimiento de analítica avanzada por parte del resto de la organización, es habitual que el científico de datos tenga que ayudar a definir las acciones a realizar en función de los resultados del modelo e incluso establecer y realizar el seguimiento y control no sólo de éste, sino también de las acciones que se realizan. El reto del científico de datos es conseguir que sus modelos o análisis aporten valor a la compañía.

En definitiva, para ser un buen científico de datos no sólo se tiene que contar con conocimientos de estadística, machine learning, bases de datos, programación, matemáticas, etc. y disponer de conocimientos tecnológicos en herramientas de análisis y modelado, sino que también se debe desarrollar la empatía, la paciencia y una gran capacidad para contar conceptos complejos con ejemplos sencillos sin perder rigor. Así lo dijo Gregory Burns: “Una persona puede tener la mejor idea del mundo, pero si no puede convencer a otras personas no importará nada”. Éste es el gran reto.

Este artículo fue publicado orginalmente en el Anuario 2017 que publica Computing España (páginas 56 a 58).

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s