Informática: información + automática, teleñeco: televisión + muñeco, emoticono: emotion + icon, Data Lakehouse: ¿?¿?, ¿y ahora qué?, ¿tiene eso algo que ver con una casa en un lago?
Por desgracia, no es exactamente el retiro de verano de los científicos de datos donde hay una zona techada con barbacoa y un porche de madera con vistas a un maravilloso paisaje donde sus hijos juegan.
Se trata más de su oficina de trabajo, pero también tiene un enorme lago donde nadan miles y miles de datos de todas las formas y tamaños y una casa con muchas plantas donde guardan todas sus herramientas que necesitan para trabajar. Aunque no se trate de su lugar de vacaciones, qué bien trabajar con esas vistas, ¿no?
Para entender bien de dónde viene este término, tenemos que volver al tema de los acrónimos. Los Data Lakehouses son la combinación de los Data Lake y los Data Warehouse. El concepto ya lleva unos años en el mercado por lo que no es una idea nueva, pero desde los dos últimos años de pandemia, está volviendo a coger impulso, por lo que podríamos decir que estamos ante el intento 2.0. de su instauración en las organizaciones.
Data Lake vs Data Warehouse: el gran desafío de tener múltiples plataformas
Las empresas trabajan diariamente con enormes cantidades de datos de los que pueden sacar grandes beneficios para sus decisiones diarias. Pero para ello, necesitan herramientas que les permitan administrar y procesar toda esa información tan útil.
La aplicación de la Inteligencia Artificial al Data Analytics para conseguir una visión y automatización mejorada, es una de las grandes prioridades que actualmente tienen los negocios que quieren marcar la diferencia. Pero las alternativas de almacenaje de datos que han existido hasta ahora no están a la altura ni tienen capacidad para el análisis de datos impulsado por la IA.
Hasta hace relativamente poco, nos encontramos en las organizaciones con dos plataformas distintas para gestionar y procesar sus datos:
Por un lado, el Data Lake es un depósito centralizado de datos que permite volcar los datos en bruto, en su formato original, sin tratar, sin organizar y sin ninguna finalidad definida con el objetivo de analizarlos a posteriori.
Por el otro lado, el Data Warehousees un almacén de datos ordenados, ya listos para ser utilizados. Esta plataforma permite almacenar de forma estructurada y cuidada la información existente en la organización, lo que facilita la consulta y el análisis. En definitiva, es un depósito de datos que se pueden transformar en conocimiento.
Se tratan entonces de dos silos de información diferentes, con características relevantes para cada una de las plataformas, totalmente independientes y con un propósito determinado. Podían estar conectadas, pero esto no funcionaba de forma eficiente. Ambas tenían puntos débiles y fortalezas con respecto a la otra, por eso se veía necesario seguir utilizando las dos plataformas de forma separada.
Los Data Warehouses tradicionales, por ejemplo, recogen y depuran datos de múltiples fuentes, pero para ello necesitan una estructura de datos muy consistente. Comparados con los Data Lakes, son caros y no se pueden aplicar análisis de Big Data. Sin embargo, tienen un enorme rendimiento, con una buena calidad, gobierno, integridad y seguridad de los datos. Con estas tecnologías, la información es homogénea y fiable, lo que hace posible que los usuarios puedan consultar fácilmente lo que necesitan y se evitan muchas cargas operativas y costes de retener copias duplicadas, en mal estado o innecesarias.
Por su parte, los Data Lakes más innovadores son muy escalables y almacenan datos estructurados, semiestructurados y no estructurados, como textos, imágenes, videos y audios, de los que puede sacar poderosa información, ya no solo cuántas veces me ha llamado un cliente o cuánto tiempo está en espera, si no un análisis tan riguroso que puede identificar si el cliente está enfadado conmigo o no por el tono de voz que utiliza.
Su arquitectura es plana, lo que facilita que el acceso a los datos se pueda realizar en conjunto y ofrecen una velocidad y un menor coste para la aplicación de Big Data, IA y Machine Learning. Sin embargo, no aceptan transacciones ni estandarizan la calidad de la información y si estos “lagos” de datos no están bien configurados y procesados, pueden convertirse en “pantanos” de datos, en los que es imposible localizar lo que necesitan los usuarios.
Para obtener las ventajas de ambos, tendríamos que conectarlas y no es tan fácil como parece. Si queremos estructurar datos y poder hacer análisis, tendríamos que enviar los datos desde un Data Lake a un Data Warehouse, lo que es un proceso muy costoso y que, además, a más procesos más posibilidad de error. Porque, a su vez, seguiríamos necesitando el Data Lake para hacer análisis sobre datos no estructurados.
Además, en los Data Warehouse sabemos que hay unos datos de calidad pero que las herramientas de Machine Learning no pueden operar correctamente. Y asimismo, sabemos que de las últimas novedades que hay de IA y ML, muchas están enfocadas en análisis de datos no estructurados.
En fin: bienvenidos al CAOS. Se necesitaba entonces, la fusión de lo mejor de ambos mundos.
Data Lakehouse: la evolución
Ante tanta complejidad, tuvo que salir al campo de juego el Data Lakehouse: la evolución de todo lo anterior. Esta nueva tecnología, unifica ambas plataformas y todas sus ventajas en una única caja donde podemos volcar y consultar todos nuestros datos de la organización, estructurados, semiestructurados y no estructurados como los Data Lakes, pero pudiendo disfrutar de la calidad, rendimiento y seguridad que nos proporcionan los Warehouses.
Desde el punto de vista del Gobierno del Dato, es muy útil, ya que es precisamente esa gobernanza la clave que diferencia un Data Lakehouse de un Data Lake de toda la vida. Es difícil gobernar toda la información que volcamos en estructuras de este estilo porque es inmensa e ingente y gracias a los Lakehouses, esto queda resuelto y podemos gobernar esa información y darle consistencia de una manera ágil y mucho más fácil.
Además, su arquitectura permite el uso de herramientas de BI, Inteligencia Artificial, Data Science y Machine Learning, todo en una única plataforma, sin tener que estar sometidos al complejo y costoso proceso de estar moviendo los datos constantemente de un lado a otro en función de cuál sea nuestro propósito.
Al unificarlo todo, se simplifican los procesos y garantizamos que todos los equipos accedan al mismo punto de partida, con una única fuente de datos, sin que se creen silos de información. De esta manera, ahorramos costes y ganamos eficiencia.
Romper los silos de información: un cambio cultural de la compañía
Todos los conceptos mencionados anteriormente son puramente teóricos, pero la realidad de las compañías es muy distinta. Cada una tiene una cultura muy diferente, pero todas suelen coincidir en las grandes polémicas que surgen sobre quién es el propietario de la información.
Cuando surge una iniciativa en las empresas para acabar con los silos de información, poner todos los datos a disposición de toda la compañía (con los controles de acceso pertinentes) y trabajar de la misma manera, cada área empieza a poner pegas: a quien no le gusta una herramienta o no la sabe usar resulta que tiene un caso de uso muy específico que no le sirve entonces necesita tenerla, etc.
Romper los silos más que algo tecnológico es un cambio cultural. Es muy necesario, que toda organización y todos los departamentos que se quieran apuntar a la iniciativa, estén muy alineados y comprometidos con la estrategia de datos corporativa. Porque no sirve de nada llamar a las diferentes puertas y a venderles unos beneficios teóricos que nos puede traer una plataforma sin que realmente estén convencidos.
El principal reto es entonces dirigir correctamente ese cambio cultural y hacer que todas las áreas de la empresa se apunten.
Priorizar la calidad de los datos
Muchas veces priorizamos la cantidad antes que la calidad: pecamos de cargar mucha información y ponerla a disposición del negocio más rápido de la cuenta, porque pensamos que más es mejor. Sin embargo, de nada nos va a servir si esa información no es de calidad. Igual su sistema original sí que lo es, pero si se pierden partes por el camino o se cambian formatos, los datos pueden perder su validez. Habremos volcado mucha información, pero un tiempo después, nos daremos cuenta de que faltan registros, que los datos no coinciden o que directamente no están porque se han modificado los originales.
Por lo tanto, antes de ponernos a cargar y usar datos, tenemos que priorizar que estos están bien y tienen la calidad adecuada, antes de que sea demasiado tarde.
La calidad lleva a la credibilidad y la credibilidad al éxito
¿De qué nos sirve un Data Warehouse, un Data Lake o un Data Lakehouse, si las empresas siguen sin creerse los datos y siguen actuando por su propia intuición?
La clave del éxito para un uso continuado de los Data Lakehouses es la credibilidad. Cuando hablamos de datos en una organización, siempre hay partes que no se fían de los datos o no se los creen. La confianza es la base de todo para cualquier proceso dentro de la organización y esto es imprescindible en la transformación tecnológica a la que están asistiendo las empresas.
En definitiva, el mundo empresarial precisa cubrir nuevas necesidades en cuanto al uso y explotación de sus datos, lo cual representa un desafío que obliga a organizaciones y personas a dar lo mejor de sí mismos.
Aparecen así, como solución a las alternativas de almacenaje y procesamiento de datos que han existido hasta ahora, los Data Lakehouses: una fusión de los Warehouses tradicionales y de los Data Lakes más novedosos. Esta plataforma se queda con lo mejor de ambos mundos y consigue integrar el BI tradicional con la Analítica Avanzada en un único entorno, acabando con los costosos procesos que suponía utilizar ambas tecnologías por separado.
Sin embargo, para poder sacarle el máximo provecho a esta innovadora y poderosa herramienta, es necesario que las empresas se apunten a esta transformación cultural y tecnológica, que confíen en los datos y en sus beneficios y que estén muy alineados y comprometidos con la estrategia de datos corporativa.