Con el aprendizaje automático o Machine Learning preparado para mejorar y, en algunos casos, reemplazar la toma de decisiones humanas, los Chief Data Officers, Data Scientists y los CIOs están reconociendo que las formas tradicionales de organizar los datos para el consumo humano no serán suficientes en la próxima era de la toma de decisiones basadas en la inteligencia artificial (IA). Esto deja un número creciente de empresas centradas en el futuro en un solo camino a seguir: para que sus estrategias de Machine Learning tengan éxito, tendrán que ser disruptivos en la cadena de valor del data management de principio a fin.
En los próximos 18/ 24 meses, se espera que las empresas comiencen a abordar este desafío rediseñando la forma en que capturan, almacenan y procesan datos. Como parte de este esfuerzo, implementarán una serie de herramientas y enfoques que incluyen capacidades avanzadas de captura y estructuración de datos, análisis para identificar conexiones entre datos aleatorios y almacenes de datos en cloud de próxima generación que admitan modelos complejos.
En la tercera encuesta anual de `State of AI in the Enterprise´ de Deloitte, cuando se les pidió que seleccionaran una iniciativa principal de IA para aumentar su ventaja competitiva, los encuestados destacaron «modernizar nuestra infraestructura de datos para IA”. Las compañías encuestadas que no vienen de digital y que están encorsetadas en sistemas legacy afirmaban que van a realizar una fuerte apuesta por modernizar la infraestructura de datos. Algunos de sus competidores nativos digitales, la mayoría sin la carga de modelos de datos y capacidades de procesamiento anticuadas, ya están monetizando sus datos más diversos y de manera más ágil.
En los próximos meses, las compañías explorarán oportunidades para rediseñar sus cadenas de valor de Data Management para potenciar todas las posibilidades del Machine Learning. En el ámbito de la gestión de datos, esto marca un cambio de rumbo. Durante décadas, las empresas han recopilado, organizado y analizado datos con un objetivo en mente: ayudar a los seres humanos a tomar decisiones basadas en hechos estadísticos en lugar de corazonadas y emociones.
Los seres humanos tienden a mirar los datos agregados caracterizados por dos o tres factores principales. Cuando se enfrentan a datos más complejos, los seres humanos luchan por procesar la información presentada y articular una decisión útil. Por ello, normalmente se organizan los datos en tablas y filas limpias, con un etiquetado preciso. Las máquinas, por el contrario, pueden evaluar múltiples factores simultánea y objetivamente.
Los modelos de Machine Learning pueden extraer bajos niveles de significancia estadística en volúmenes masivos de datos estructurados y no estructurados. Trabajan todo el día y pueden tomar decisiones inteligentes en tiempo real. Cuando se utiliza en áreas en las que la toma de decisiones humanas no es escalable, como limpiar datos sin procesar o hacer recomendaciones personalizadas de productos, es posible que el Machine Learning solo necesite tomar decisiones lo suficientemente buenas, no perfectas.
Por ejemplo, un retailer presumiblemente vería valor en la capacidad de recomendar, en tiempo real, una variedad de productos adaptados a miles de compradores en línea de manera individual y de manera simultánea. Los productos que recomiendan los algoritmos de Machine Learning podrían no coincidir perfectamente con los gustos únicos de cada cliente, pero podrían ser suficientes, en ese momento, para impulsar una venta.
En una empresa, cada decisión lo suficientemente buena basada en datos que esas máquinas toman, en lugar de los seres humanos, reduce el coste total por decisión, lo que a su vez permite a las empresas extraer valor incluso de las decisiones de nivel más bajo. El tiempo, la velocidad y la capacidad aumentarán tan dramáticamente que tomar esa decisión basada en datos en el futuro costará una fracción de lo que hace hoy en día. Aunque los enfoques pueden variar según la industria, el mercado y la necesidad organizativa, es probable que las empresas centren sus esfuerzos de reingeniería en las siguientes áreas:
Oportunidades hay. Tu empresa tiene grandes cantidades de datos potencialmente valiosos aún sin explotar. Algunos de ellos son probablemente datos empresariales tradicionales que residen en bases de datos, archivos y sistemas; otros pueden ser datos más recientes generados por máquinas o dispositivos móviles, mientras que otros pueden ser texto no estructurado o datos de grabaciones de vídeo o audio.
Con toda probabilidad, hasta ahora, obtener estos datos era demasiado complicado o caro para utilizarlos de una manera rentable, por lo que se perdían en el rincón del olvido y por lo tanto, se perdía una gran oportunidad. Nadie sabe qué datos podrían resultar predictivos o aportar valor en la toma de decisiones, por lo que es fundamental capturar todos los datos posibles. Además, es probable que a día de hoy estés desechando algunos datos que, con las herramientas y enfoques adecuados, podrías utilizar. Por ejemplo, en los sectores industria y utilities:
¿Qué información necesitan para predecir fallos de energía o equipos? Tradicionalmente, es posible que hayan recopilado datos solo en caso de error. Pero para fines predictivos, también necesitarían datos sobre operaciones cotidianas sin incidentes para entender cuál sería el funcionamiento normal.
En términos de almacenamiento, las organizaciones se centran cada vez menos en almacenar datos que se ajusten perfectamente a tablas, filas y columnas. De hecho, para alimentar esos algoritmos de Machine Learning y las herramientas de Advanced Analytics, están explorando las diferentes oportunidades que ofrece el mercado en materia de bases de datos modernas para almacenar grandes volúmenes de datos desestructurados procedentes de IOT, Social Media e Inteligencia Artificial:
El almacenamiento de datos en cloud, con una creciente matriz de importantes proveedores de cloud pública ofreciéndola como servicio (SaaS), agrega datos de fuentes dispares en toda una empresa y los pone a disposición de los usuarios para el procesamiento y la minería en tiempo real.
Su facilidad de uso, escalabilidad según la necesidad del momento, flexibilidad, ahorro de coste, procesamiento avanzado de datos y herramientas de análisis están suponiendo un gran crecimiento en el mercado de los cloud data warehouses como Snowflake.
Según las previsiones de Prescient & Strategic Intelligence el mercado de los data warehouse-as-a-service alcazará los US$23.8 billions de valor en 2030.
En un futuro próximo, será común que una organización tenga cientos o miles de modelos de datos que funcionen independientemente uno del otro y en paralelo. Cada uno de estos modelos utilizará diferentes conjuntos de características. Por ejemplo, algunos requerirán decisiones inmediatas, mientras que otros no, lo que supone necesidades totalmente diferentes en cuanto a datos y potencia de procesamiento.
Ejecutar la computación en tiempo real uniformemente en cada modelo es una pérdida de potencia informática. Del mismo modo, algunos modelos probablemente comparten características, mientras que otras características se pueden utilizar exclusivamente en un solo modelo. ¿C ómo se puede gestionar todas estas demandas en todos los modelos de datos? Los Features Stores proporcionan un mecanismo para asignar características de computación, uso compartido y administración de datos de manera eficiente y a escala, lo que hace que este mecanismo sea integral para reducir los costes de decisión.
Además, al aprovechar la IA, los Feature Stores pueden predecir la demanda de ciertas características en función de los tipos de datos que se modelan.
La popularidad de la tecnología de las bases de datos de series temporales ha crecido considerablemente en los últimos dos años por una buena razón. A diferencia de las bases de datos relacionales que registran cada cambio en los datos como una actualización, las bases de datos de series temporales los rastrean y registran (y el momento específico en el que se hicieron) como una inserción única en un dataset.
Con la explosión de los datos temporales procedentes del IoT y tecnologías de monitorización, entre otras, tanto el análisis histórico como el predictivo depende cada vez más de la capacidad de consultar un valor de datos desde un punto en el tiempo y realizar un seguimiento continuo, preciso y eficiente.
Los datos altamente interconectados pueden ser difíciles de analizar y de usar sacando su máximo potencial. Mediante el uso de bases de datos relacionales tradicionales en las que los datos se organizan en tablas, se puede identificar y administrar un número limitado de relaciones de datos. Pero a medida que los datos se vuelven más voluminosos y menos estructurados, el número de relaciones e interconexiones aumenta exponencialmente, convirtiéndose así en algo totalmente inmanejable en los modelos de bases de datos tradicionales.
Las bases de datos basadas en grafos están diseñadas específicamente para abordar este desafío almacenando no solo datos, sino información sobre las relaciones de cada punto de datos de forma nativa. Con este modelo, las queries sobre relaciones complejas entre datos pueden ser rápidas, eficientes y más precisas. Con los costes de almacenamiento de información reduciéndose cada vez más; agregar y organizar volúmenes masivos de datos ya no es prohibitivo en términos de coste. Además, las arquitecturas de datos modernas requieren de menos mantenimiento, lo cual reduce los costes administrativos y de reparación.
A medida que comiences a capturar más datos, es probable que incluyas datos fragmentados generados en diferentes dispositivos, canales y ubicaciones, pero… ¿cómo podrías conectar datos fragmentados de una manera que se pueda segmentar a un cliente individual en un contexto individual, o que revele una necesidad insatisfecha del mercado o que se pueda descubrir una oportunidad interna para una mayor eficiencia?
Desbloquear el valor total de todos los recursos de datos, incluidos el Dark Data y los no tradicionales, puede ser complejo y costoso, especialmente en grandes empresas con cientos de sistemas heredados (sistemas legacy), datos duplicados almacenados en todo el mundo y prácticas de nomenclatura inconsistentes. A medida que comiences a trabajar para crear la nueva base de tus datos, es probable que te enfrentes a un doble desafío. En primer lugar, para tomar decisiones data-driven más certeras tendrás que analizar algo más que los datos obvios.
De hecho, necesitarás los datos no obvios: información que nadie sabe que existe. Entonces, incluso si pudieras recopilar todos los datos conocidos y desconocidos de tu empresa, ¿cómo podrías vincular estos datos dispares con formato inconsistente de una manera significativa? El trabajo de descubrir y conectar datos de la organización puede ser complejo y caro. Sin embargo, eludir este desafío podría costarte aún más si tu empresa pierde oportunidades potencialmente valiosas.
La buena noticia es que las tecnologías de administración de datos cognitivos con tecnologías de Machine Learning disponibles hoy en día pueden ayudar a acelerar los procesos de descubrimiento de datos, insights y conexiones:
• Los análisis, los modelos semánticos y la tecnología cognitiva pueden automatizar las costosas actividades manuales de administración, lo que libera a los Data Scientists para centrarse en análisis más avanzados. • Identificar similitudes en el código de los sistemas de datos subyacentes hace posible que los Data Scientists utilicen algoritmos personalizados en varios modelos de datos.
Por último, al aprovechar las capacidades de Machine Learning para automatizar el procesamiento de datos maestros, los administradores de datos cognitivos pueden ayudar a los usuarios a visualizar las relaciones entre los datos, mejorar su preparación y calidad, y permitir una mayor eficiencia en su gestión. En un futuro muy cercano, las capacidades de los administradores de datos (Data Stewards) crecerán con nuevas herramientas que ayudarán con la ingesta, la clasificación, la administración y el descubrimiento.
Referencias: Tech Trends 2021; Deloitte