Seguro que recuerdas esos tiempos en los que estabas aprendiendo a conducir, ¿verdad? A la hora de montarte en el coche tenías que seguir unos pasos fundamentales para que todo estuviera en orden y listo para que el coche arrancase con seguridad. Ponernos el cinturón, regular el reposacabezas, ajustar los espejos, las luces, meter primera, soltar embrague, ir arrancando, mirar los espejos cada dos por tres, etc.
En el mundo de los datos también es necesario seguir unos pasos que nos permitan aprender a desenvolvernos y circular dentro de él. Convertirse en un experto de datos implica lo mismo: aprender las fases básicas de un proyecto de análisis de datos y seguirlas desde la preparación de los datos brutos hasta la construcción de un modelo de aprendizaje automático y, en última instancia, hasta su ejecución.
Aquí te mostramos siete pasos fundamentales que tienes que seguir para convertirte en un auténtico experto en datos, aprender a obtener el máximo valor comercial de tus proyectos y mitigar los riesgos:
La primera fase de cualquier proyecto de análisis de datos sólido es entender el negocio o la actividad de la que forma parte. Para pasar de la fase de diseño del proyecto a la producción, necesitarás contar con el apoyo de diferentes players a los que tendrás que convencer y motivar. Para ello, tu propuesta debe ser la respuesta a una necesidad organizativa clara. Antes de pensar en datos, tienes que hablar con las personas de tu organización cuyos procesos o negocios pretendes mejorar con el Data Analytics.
A continuación, siéntate a definir un calendario y unos indicadores clave de rendimiento concretos. Sí...La planificación y los procesos son la parte más aburrida pero son un primer paso esencial para poner en marcha tu iniciativa de datos.
Si estás trabajando en un proyecto personal, jugando con un conjunto de datos o una creando una API, este paso puede parecer irrelevante pero no lo es. No basta con descargarse un conjunto de datos abierto. Para tener motivación, dirección y propósito, tienes que identificar un objetivo claro de lo que quieres hacer con los datos: una pregunta concreta que responder, un producto que construir o una necesidad que satisfacer.
Una vez que has definido el objetivo, es el momento de pasar a la segunda fase de todo proyecto analítico: obtener los datos. ¿Cómo empezar? Estas son algunas formas de conseguir datos utilizables:
Conéctate a una base de datos: pide a los equipos de datos y de IT los datos que están disponibles o abre tu base de datos privada y empieza a indagar en ella para ver qué información ha estado recopilando tu empresa.
Utiliza las API’s: piensa en las herramientas que tu empresa ha estado utilizando y en los datos que estas han estado recogiendo: tienes que utilizarlos sí o sí. Es momento de trabajar en la configuración de todas ellas para poder emplear las estadísticas de apertura y clics de los correos electrónicos, la información que tu equipo de ventas puso en Salesforce, el ticket de soporte que alguien envió, etc. Si no eres un experto en codificación, existen plataformas que pueden ayudarte. Sus plugins te dan muchas posibilidades para introducir datos externos.
Busca datos abiertos: Internet está lleno de conjuntos de datos para enriquecer lo que tienes con información adicional. Por ejemplo, los datos del censo te ayudarán a añadir los ingresos medios del distrito donde vive tu usuario o OpenStreetMap puede mostrarte cuántas cafeterías hay en una calle determinada.
Una vez que ya tienes los datos, es hora de ponerse a trabajar con ellos.
Advertencia: esta es probablemente la fase más larga, temida y molesta de un proyecto de análisis de datos ya que ocupa el 80% del tiempo. Va a ser doloroso durante un tiempo, pero mientras te mantengas centrado en el objetivo final, lo superarás.
Lo primero es indagar para ver lo que tienes y cómo puedes relacionarlo todo para lograr el objetivo original. Empieza a tomar notas de tus primeros análisis y haz preguntas a la gente del negocio, al equipo de TI o a otros grupos para entender qué significan todas tus variables.
Lo siguiente es limpiar todos esos datos. Por mucho que tengamos de nada nos va a valer si esos datos no son de calidad. Seguramente te habrás dado cuenta de que, aunque tengas una función de “país”, por ejemplo, tienes distintas grafías o incluso te faltan datos. Es el momento de mirar cada una de tus columnas para asegurarte de que tus datos son homogéneos y están limpios.
Por último, un elemento de vital importancia en la preparación de la información que no debes pasar por alto es asegurarte de que cumple con la normativa sobre privacidad de datos. La privacidad y la protección de los datos personales se está convirtiendo en una prioridad para los usuarios, las organizaciones y los legisladores. Para llevar a cabo proyectos que cumplan esta normativa, tendrás que implementar una estrategia de gobierno del dato que te lo permita. A continuación, tendrás que designar claramente los conjuntos de datos y los proyectos que contengan datos personales y/o sensibles y que, por tanto, deban tratarse de forma diferente.
Ahora que ya tienes los datos limpios, es el momento de manipularlos para obtener el máximo valor de ellos. Deberías comenzar la fase de enriquecimiento uniendo todas tus diferentes fuentes y agrupando los registros para reducir tus datos a las características esenciales. Por ejemplo, creando características basadas en el tiempo:
Extracción de fechas (mes, hora, día de la semana, semana del año, etc.)
Cálculo de diferencias entre columnas de fechas
Marcar los días festivos nacionales
Otra forma de enriquecer los datos es la unión de los conjuntos, es decir, agrupar columnas en un conjunto de datos de referencia. Este es un elemento clave de cualquier análisis, pero puede convertirse en una pesadilla cuando se tienen abundantes fuentes. Existen herramientas que permiten mezclar datos mediante un proceso simplificado, recuperando fácilmente datos o uniendo conjuntos en función de criterios específicos y ajustados, sin tener que hacerlo de forma manual.
Al recopilar, preparar y manipular los datos, hay que tener mucho cuidado de no introducir en ellos sesgos involuntarios u otros patrones indeseables. De hecho, los datos que se utilizan para crear modelos de aprendizaje automático y algoritmos de IA suelen ser una representación del mundo exterior y, por lo tanto, pueden estar profundamente sesgados en contra de ciertos grupos e individuos. Una de las cosas que más hacen temer a los datos y a la IA es que el algoritmo no sea capaz de reconocer el sesgo. Como resultado, el modelo se entrena con datos sesgados e interpretará el sesgo recurrente como una decisión a reproducir y no como algo a corregir.
Por eso, una parte importante del proceso de manipulación de datos es asegurarse de que los conjuntos de datos utilizados no reproducen ni refuerzan ninguna desviación que pueda conducir a resultados sesgados, injustos o poco equitativos. Tener en cuenta el proceso de toma de decisiones del modelo de aprendizaje automático y ser capaz de interpretarlo es hoy en día una cualidad tan importante para un científico de datos, si no más, que ser capaz de construir modelos en primer lugar.
Ahora que ya tienes un buen conjunto de datos (o quizás varios), es el momento para empezar a explorarlo construyendo gráficos. Cuando se trata de grandes volúmenes de datos, la visualización es la mejor manera de entender y comunicar los resultados.
La parte complicada aquí es ser capaz de profundizar en tus gráficos en cualquier momento y responder a cualquier pregunta que alguien pueda tener. Es entonces cuando la preparación de los datos resulta útil: has hecho todo el trabajo sucio, así que conoces los datos como la palma de tu mano.
Los gráficos también son otra forma de enriquecer tu conjunto de datos y visualizar características más interesantes. Por ejemplo, si colocas los puntos de datos en un mapa, tal vez puedas observar que determinadas zonas geográficas son más reveladoras que determinados países o ciudades.
En esta fase es cuando empieza la verdadera diversión. Los algoritmos de aprendizaje automático pueden ayudarte a dar un paso más en la obtención de información y la predicción de tendencias futuras.
Al trabajar con algoritmos de agrupación (también conocidos como no supervisados), puedes construir modelos para descubrir tendencias entre tus datos que no se pueden distinguir en los gráficos y las estadísticas. Estos crean clusters y expresan más o menos explícitamente qué característica es decisiva en los resultados.
Los científicos de datos más avanzados pueden ir todavía más lejos y predecir las tendencias futuras con algoritmos supervisados. Analizando datos pasados, encuentran características que han influido en las tendencias anteriores y las utilizan para construir predicciones. Más que obtener conocimientos, este último paso puede conducir a la creación de productos y procesos totalmente nuevos.
Eso sí, para obtener un valor real del proyecto, el modelo predictivo no debe quedarse en la estantería; tiene que ser operacionalizado. La operacionalización significa simplemente ejecutar un modelo de aprendizaje automático para su uso en una organización. La operacionalización es vital para la organización y para que puedas obtener todos los beneficios de tus esfuerzos.
El objetivo principal de cualquier iniciativa empresarial es demostrar su eficacia lo antes posible para justificar el trabajo realizado. Lo mismo ocurre con los proyectos de datos. Si se gana tiempo en la limpieza y el enriquecimiento de los datos, se puede llegar rápidamente al final del proyecto y obtener los resultados iniciales. Esta es la fase final para completar tu proyecto de análisis de datos y una de las más importantes para todo el ciclo de vida de los datos.
Uno de los mayores errores que comete la gente con respecto al aprendizaje automático es pensar que una vez que se construye un modelo y se pone en marcha, seguirá funcionando con normalidad indefinidamente. Por el contrario, los modelos perderán calidad con el tiempo si no se mejoran continuamente y se alimentan con nuevos datos.
Para completar con éxito tu primer proyecto de datos, debes reconocer que tu modelo nunca estará totalmente "completo". Para que siga siendo útil y preciso, hay que reevaluarlo constantemente, volver a entrenarlo y desarrollar nuevas funciones. Si hay algo que se puede extraer de estos pasos fundamentales, es que el trabajo de un científico de datos nunca termina realmente; eso es lo que hace que trabajar con datos sea aún más fascinante y desafiante.
Si en tu empresa ¿están evaluando cómo empezar una estrategia para sacar provecho a los datos? Contáctanos, en Keyrus somos consultores especializados en plataformas digitales de Commerce, Marketing, Data y Customer Experience.
Todos los derechos reservados a Dataiku.