La IA, el aprendizaje automático y la analítica no son solamente hype; las empresas grandes y pequeñas están buscando herramientas y servicios de IA con la esperanza de mejorar los procesos de negocio, la atención al cliente y la toma de decisiones con Big Data, análisis predictivo y sistemas algorítmicos automatizados.
Pero la experiencia en la ciencia de los datos no está tan extendida como el interés por utilizar datos para tomar decisiones y mejorar los resultados. Si tu empresa se está iniciando en la ciencia de los datos, he aquí algunos errores comunes que querrás evitar:
Tienes que comprobar tanto la calidad como el volumen de los datos que has recogido y que piensas utilizar. La mayor parte de tu tiempo, aproximadamente el 80%, lo vas a dedicar a obtener y preparar los datos. Esto asumiendo que estás haciendo un seguimiento de los datos que realmente necesitas para que tus científicos de datos realicen su trabajo.
Incluso si estás haciendo un seguimiento de los datos adecuados, puede que no los estés registrando correctamente, o que la forma de registrarlos haya cambiado con el tiempo, o puede que los sistemas de los que los has obtenido hayan cambiado mientras recogías los datos. Si hay cambios de un mes a otro, no podrás utilizar los datos de todo ese mes para realizar análisis o construir modelos, porque el propio sistema será distinto.
Aunque se recojan los datos adecuados, los bajos volúmenes de datos y el gran número de variables independientes dificultan la creación de modelos predictivos para áreas de negocio como el marketing y las ventas B2B. La ciencia de datos y los modelos predictivos mejoran cuantos más datos se tienen. Como las tasas de transacción son bajas y las variables independientes que afectan a las transacciones son muchas, dispondrás de pequeños conjuntos de datos e interacciones complejas, lo que debilita la potencia de los modelos predictivos.
Una opción es comprar conjuntos de datos como los de intención de compra, siempre que encuentres al menos uno que se aplique a tu segmento de negocio. Otra opción es simular los datos, pero hay que hacerlo con cuidado. En la realidad, los datos pueden comportarse de forma distinta a la suposición que hiciste en un inicio.
Puede que tengas teorías e intuiciones sobre lo que mostrará un conjunto de datos, pero los equipos de datos deben tomarse el tiempo necesario para examinar los datos en detalle antes de utilizarlos para entrenar un modelo de datos.
Si ves algo contraintuitivo es posible que tus suposiciones sean incorrectas o que los datos lo sean. Lo más importante que debes hacer es simplemente observar los datos, trazarlos y hacer un análisis exploratorio. Mucha gente lo hace demasiado rápido o directamente no lo hace, pero hay que entender cómo son los datos. Si se hace una exploración previa, se podrá determinar más rápidamente si los datos cuentan con la historia adecuada en función de la experiencia en la materia y la visión de negocios.
El bombo y revuelo en torno a la IA tiene a demasiada gente convencida de que, si soltamos datos en un algoritmo informático, éste lo resolverá todo por sí mismo. Aunque las empresas dispongan de muchos datos, sigue siendo necesaria la experiencia humana para transformar los datos a un formato útil.
Observar únicamente lo que tu empresa ha hecho anteriormente no descubrirá nuevas oportunidades, solo formas diferentes de ser más eficiente en acciones que ya has hecho. Cuanto más utilices el pasado como único indicador del futuro, menos abierto estarás a buscar nuevas vías. Incluso si incorporas datos de terceros para identificar la demanda de tus productos o servicios, esto no garantiza que seas capaz de realizar esas ventas. Un modelo de datos puede indicarte que una empresa es propensa a la compra de tus productos, pero no puede asegurarte que esa empresa tenga una necesidad ahora mismo.
Las personas están empezando a invertir y confiar en los data scientist de una forma nunca vista en otros campos, y les están lanzando recursos con la expectativa de que serán capaces de resolver todas sus preguntas. Hay mucha fe depositada en esta visión romántica de los científicos de datos y del uso de los datos para responder las preguntas e impulsar las decisiones.
Los Data Scientist deben demostrar que son capaces de cumplir con su cometido a través de pequeños proyectos y quick-wins para justificar el valor de la empresa. No es recomendable empezar empleando un mes entero en un gran proyecto porque crean que va a tener un valor enorme.
Si has invertido tiempo y dinero en la creación de un modelo de datos, querrás aplicarlo en todas partes con tal de sacar el máximo partido a tu inversión. Pero haciendo esto, no podrás medir lo bien que funciona el modelo en realidad. Además, si los usuarios no confían en el modelo, es posible que no lo utilicen y entonces no podrás probarlo.
¿La solución? Un programa de gestión del cambio para garantizar la adopción del modelo y un grupo de control que no lo utilice. Recluta a un grupo aleatorio que busque descubrir las oportunidades del modelo y otro grupo de control que quiera hacer las cosas como siempre las ha hecho, de forma autodidacta, a través de la experiencia.
Es tentador buscar un modelo de datos que ofrezca mejoras específicas, como conseguir que el 80% de tus casos de atención al cliente se cierren en 48 horas o ganar un 10% más en un trimestre, pero no podemos trabajar únicamente a partir de estas métricas.
Siempre que puedas, empieza a partir de una hipótesis. Puede que hayas observado alguna métrica general y quieras cambiarla; este puede ser un buen objetivo empresarial, pero es difícil imaginar qué palancas debes mover para conseguirlo. Pon a prueba tu hipótesis para ver en qué medida mejorará la situación actual, ya sea con un grupo de control o explorando los datos.
Si puedes hacer una prueba con un grupo de control que puedas dividir en dos, siendo ambos grupos muestras representativas, podrás determinar si el método utilizado ha tenido realmente el impacto que esperabas. Si solo vas a observar los datos a posteriori, comenzar con la hipótesis puede ayudarte a reducir la amplitud. Por ejemplo, necesito aumentar esta métrica en un 10%: Primero determinaré cuáles son mis hipótesis sobre lo que podría influir en esto y ,entonces podré, hacer un análisis exploratorio de los datos haciendo un seguimiento solo de esos en los datos. Tener muy clara la pregunta que te haces y la hipótesis que estás probando puede ayudar a reducir el tiempo que dedicas a ello.
Si dispones un modelo de datos que funciona bien para un problema, a lo mejor piensas que podrás seguir utilizándolo para siempre, pero los modelos deben actualizarse y es posible que tengas que construir modelos adicionales a medida que pase el tiempo. Las características cambiarán con el tiempo. Tendrás que comprobar continuamente su validez y actualizar el modelo.
Hay muchas razones por las que los modelos quedan desfasados; el mundo cambia y la empresa también (sobre todo si el modelo resulta útil). Los modelos no deben considerarse estáticos; el mercado, desde luego, no lo es. Si las preferencias del mercado evolucionan a diferencia de tu historial, éste te guiará por un camino distinto. Es decir, el rendimiento del modelo decae. Debes tener un equipo de experimentación que se plantee: “¿Cómo vamos a ir añadiendo los datos al modelo a lo largo del tiempo?». Debes tener un conjunto de experimentos en marcha que haga aflorar nuevas oportunidades de diferenciación.
Otra ventaja de utilizar un grupo de control consiste en medir la calidad del resultado del modelo, y hay que hacer un seguimiento de todo el proceso, o acabaremos optimizándolo para un objetivo equivocado.
Las empresas hacen cosas como aplicar un bot a su servicio telefónico y no comprueban continuamente si el bot está conduciendo a una mayor satisfacción del cliente, solo se felicitan por utilizar menos mano de obra. Si los clientes cierran los casos de asistencia porque el bot no puede darles la respuesta correcta en lugar de porque ha resuelto su problema, la satisfacción del cliente caerá drásticamente.
Es un error pensar que todas las respuestas que necesitas están en los datos y que un desarrollador o científico de datos puede encontrarlas por sí mismo. Asegúrate de que participe alguien que entienda el problema del negocio. Aunque un data scientist informado y experto será capaz de resolver el problema en cuestión eventualmente, será mucho más fácil si el personal de negocio y los científicos de datos están en la misma página.
Empieza los proyectos con una conversación entre el equipo de datos y el stakeholder del negocio para asegurarte de que todos tienen claro el objetivo del proyecto, incluso antes de empezar a observar los datos. Luego se puede hacer un análisis exploratorio de los datos para ver si se puede lograr, y si no, es posible que haya que volver atrás y reformular la pregunta de una manera nueva o conseguir una fuente de datos diferente. Pero es el experto en la materia quien debe ayudar a decidir cuál es el objetivo y si el proyecto lo está consiguiendo.
La vanguardia del aprendizaje automático es apasionante y las nuevas técnicas pueden ser muy potentes, pero también pueden resultar excesivas. Puede ser que un método sencillo como la regresión logística o un árbol de decisión sea suficiente. Es tentador lanzar inmensos recursos de potencia informática y modelos sofisticados a los problemas. Puede que sientas curiosidad intelectual por un aspecto de un proyecto y quieras probar un nuevo algoritmo que haga más de lo que se pedía.
El trabajo consiste en encontrar un enfoque sencillo que responda a la pregunta. Hay que revisar los métodos más sencillos antes de pasar a opciones más sofisticadas. Es más probable que se produzca un sobreajuste con algoritmos sofisticados como el aprendizaje profundo: Consigues un modelo extremadamente preciso con los datos que tienes ahora que no rinde nada bien con la nueva información.
Trabajar con el experto en negocios para decidir qué pregunta necesita respuesta, debería guiar la elección de las técnicas. Muchos científicos de datos se centran en el aprendizaje automático y gran parte del aprendizaje automático se centra en la predicción, pero no todas las preguntas que se respondan serán preguntas de predicción. La frase “necesitamos ver las ventas del último trimestre» puede significar muchas cosas diferentes. ¿Necesitamos predecir el importe de las ventas de los nuevos clientes o tal vez solo necesitamos saber por qué las ventas parecen haberse estancado en una semana concreta del último trimestre?
Hay un montón de ejemplos de ciencia de datos y aprendizaje automático de los que puedes aprender y que puedes adaptar. Una de las razones que explican el crecimiento exponencial de la ciencia de datos es la disponibilidad de implementaciones de código abierto de casi todos los algoritmos, lo que facilita el desarrollo de un prototipo rápido.
Pero estas implementaciones suelen desarrollarse para casos de uso específicos. Si lo que necesitas del sistema es distinto, es mejor construir tu propia versión. Implementa tus propias rutinas de limpieza de datos y construcción de características, porque te dará más control.
La validación cruzada ayuda a estimar la precisión de un modelo de predicción cuando no dispones de suficientes datos para usar un conjunto de entrenamiento aparte. Para la validación cruzada, se divide el conjunto de datos varias veces, utilizando diferentes partes para entrenar y después probar el modelo, con el objetivo de comprobar si se obtiene la misma precisión independientemente del subconjunto de datos con el que se entrene.
Pero con esta técnica no puedes justificar que tu modelo será siempre tan preciso como lo ha sido en la validación cruzada. Un modelo generalizable es aquel que reacciona de forma precisa a los nuevos datos entrantes, pero la validación cruzada nunca podrá demostrarlo. Como solo utiliza los datos disponibles, únicamente podrá demostrar que tu modelo es preciso para esos datos en específico.
Igualmente, la correlación no es causalidad; ver dos cosas que están correlacionadas no significa que una afecte a la otra. El trazado exploratorio que hagas con tu conjunto de datos te dará una idea de lo que puede predecir y de qué valores de los datos son correlaciones y cuáles no dicen nada. Si estás haciendo un seguimiento del comportamiento de los clientes en tu web web e-commerce para predecir qué clientes volverán y cuándo, registrar si se han conectado no te desvela nada nuevo porque ya habrán vuelto a tu web para hacerlo. El inicio de sesión va a estar muy correlacionado con el retorno, pero sería un error incorporarlo al modelo.
Puede que los usuarios de negocio no sean capaces de realizar análisis estadísticos por sí mismos, pero eso no significa que no entiendan los márgenes de error o la significación y validez estadística. A menudo, cuando un análisis se dirige a los equipos de negocio, termina siendo una sola diapositiva con un solo número, ya sea una cifra de precisión, una estimación, una predicción o un pronóstico; pero el margen de error es muy importante cuando proporcionas únicamente ese valor.
Puede que los usuarios de negocio no sean capaces de realizar análisis estadísticos por sí mismos, pero eso no significa que no entiendan los márgenes de error o la significación y validez estadística. A menudo, cuando un análisis se dirige a los equipos de negocio, termina siendo una sola diapositiva con un solo número, ya sea una cifra de precisión, una estimación, una predicción o un pronóstico; pero el margen de error es muy importante cuando proporcionas únicamente ese valor.
Si las decisiones empresariales se toman sobre la base de un análisis de datos, hay que dejar claro el grado de confianza que hay que depositar en el resultado o los responsables de la toma de decisiones tendrán dificultades para confiar en el sistema, y no des por sentado que no están lo suficientemente preparados técnicamente como para entenderlo.
Referencias: Todos los derechos reservados a CIO