Graças ao Machine Learning pronto para melhorar e, em alguns casos, até mesmo substituir a tomada de decisões humanas, os Responsáveis de Dados, Cientistas de Dados e CIOs estão a reconhecer que as formas tradicionais de organização de dados para consumo humano não serão suficientes na próxima era de tomada de decisões baseada na inteligência artificial (IA). Isto deixa um número crescente de empresas focadas no futuro com apenas um caminho em frente: para que as suas estratégias de machine learning tenham sucesso, terão de ser perturbadoras na cadeia de valor de gestão de dados de ponta a ponta. Nos próximos anos, espera-se que as empresas comecem a enfrentar este desafio, redesenhando a forma como capturam, armazenam e processam os dados. Como parte deste esforço, implementarão uma gama de ferramentas e abordagens incluindo capacidades avançadas de captura e estruturação de dados, análises para identificar ligações entre dados aleatórios, e armazéns de dados em nuvem da próxima geração que suportam modelos complexos.
No terceiro inquérito anual da Deloitte sobre o "Estado da IA na Empresa", quando solicitado a seleccionar uma iniciativa de topo em matéria de IA para aumentar a sua vantagem competitiva, os inquiridos destacaram "a modernização da nossa infra-estrutura de dados para a IA". As empresas inquiridas que não vêm do digital e que estão trancadas em sistemas herdados disseram que se empenharão fortemente na modernização da infra-estrutura de dados. Alguns dos seus concorrentes nativos digitais, a maioria sem o fardo de modelos de dados e capacidades de processamento desactualizados, já estão a monetizar os seus dados mais diversos e ágeis.
Nos próximos meses, as empresas irão explorar oportunidades de reengenharia das suas cadeias de valor de gestão de dados para aproveitar todo o potencial do machine learning. No domínio da gestão de dados, isto marca uma mudança radical. Durante décadas, as empresas têm recolhido, organizado e analisado dados com um objectivo em mente: ajudar os seres humanos a tomar decisões baseadas em factos estatísticos e não em palpites e emoções.
Os seres humanos tendem a olhar para dados agregados caracterizados por dois ou três factores principais. Quando confrontados com dados mais complexos, os humanos lutam para processar a informação apresentada e articular uma decisão útil. Como resultado, normalmente organizam os dados em tabelas e filas limpas, com rotulagem precisa. As máquinas, pelo contrário, podem avaliar múltiplos factores simultaneamente e de forma objectiva.
Os modelos de Machine Learning podem extrair baixos níveis de significância estatística em volumes maciços de dados estruturados e não estruturados. Eles trabalham 24 horas por dia e podem tomar decisões inteligentes em tempo real. Quando utilizada em áreas onde a tomada de decisões humanas não é escalável, tais como a limpeza de dados em bruto ou a formulação de recomendações personalizadas de produtos, o ML pode apenas necessitar de tomar decisões suficientemente boas e não decisões perfeitas.
Por exemplo, um retalhista presumivelmente veria valor na capacidade de recomendar, em tempo real, uma variedade de produtos personalizados a milhares de compradores individuais em linha em simultâneo. Os produtos Algoritmos de Machine Learning recomendados podem não corresponder perfeitamente aos gostos únicos de cada cliente, mas podem ser suficientes, na altura, para conduzir uma venda.
Numa empresa, todas as decisões suficientemente boas, baseadas em dados, que estas máquinas tomam, em vez de serem humanas, reduzem o custo total por decisão, o que por sua vez permite às empresas extrair valor mesmo das decisões de nível mais baixo. O tempo, a velocidade e a capacidade aumentarão tão dramaticamente que a tomada de decisão baseada em dados no futuro custará uma fracção do que faz hoje. Embora as abordagens possam variar consoante a indústria, mercado e necessidade organizacional, é provável que as empresas concentrem os seus esforços de reengenharia nas seguintes áreas:
As oportunidades existem. A sua empresa tem grandes quantidades de dados potencialmente valiosos e inexplorados. Alguns são provavelmente dados tradicionais de empresas residentes em bases de dados, ficheiros e sistemas; alguns podem ser dados mais recentes gerados por máquinas ou dispositivos móveis, enquanto outros podem ser texto não estruturado ou dados de gravações de vídeo ou áudio.
Muito provavelmente, até agora, a obtenção destes dados tem sido demasiado complicada ou dispendiosa para ser utilizada de uma forma rentável, pelo que se perdeu no canto do esquecimento e, portanto, uma grande oportunidade perdida. Ninguém sabe que dados poderiam ser preditivos ou fornecer valor na tomada de decisões, por isso é fundamental capturar o máximo de dados possível. Além disso, hoje em dia está provavelmente a deitar fora alguns dados que, com as ferramentas e abordagens certas, poderia estar a utilizar. Por exemplo, nos sectores da indústria e dos serviços públicos:
De que informações precisa para prever falhas de energia ou de equipamento? Tradicionalmente, só se pode ter recolhido dados em caso de falha. Mas para fins preditivos, também precisariam de dados sobre operações do dia-a-dia sem incidentes para compreender o que seria um funcionamento normal.
Em termos de armazenamento, as organizações estão cada vez menos concentradas no armazenamento de dados que cabem perfeitamente em tabelas, filas e colunas. De facto, para alimentar esses algoritmos de Aprendizagem Automática e ferramentas de Data Analytics, estão a explorar as várias oportunidades no mercado de bases de dados modernas para armazenar grandes volumes de dados não estruturados de IoT, Social Media e Inteligência Artificial:
O Cloud Data Warehousing, com um número crescente de grandes fornecedores públicos de cloud computing oferecendo-o como um serviço (SaaS), agrega dados de fontes díspares numa empresa e disponibiliza-os aos utilizadores para processamento e Data Mining em tempo real.
A facilidade da sua utilização, escalabilidade conforme necessário, flexibilidade, redução de custos, ferramentas avançadas de processamento e análise de dados estão a impulsionar o crescimento no mercado de armazenamento de dados em cloud, como a plataforma Snowflake.
De acordo com as previsões da Prescient & Strategic Intelligence, o mercado de Data Warehouse-as-a-service atingirá um valor de 23,8 mil milhões de dólares até 2030.
Num futuro próximo, será comum que uma organização tenha centenas ou milhares de modelos de dados a funcionar independentemente uns dos outros e em paralelo. Cada um destes modelos irá utilizar conjuntos de características diferentes. Por exemplo, alguns exigirão decisões imediatas, enquanto outros não, implicando requisitos de dados e poder de processamento totalmente diferentes.
A execução uniforme de cálculos em tempo real em cada modelo é um desperdício de poder computacional. Do mesmo modo, alguns modelos são susceptíveis de partilhar características, enquanto outras características podem ser utilizadas exclusivamente num modelo. Como podem todas estas exigências ser geridas em todos os modelos de dados? As Lojas de Características fornecem um mecanismo para atribuir características de computação, partilha e gestão de dados de forma eficiente e em escala, tornando este mecanismo integral para reduzir os custos de decisão.
Além disso, ao alavancar a IA, os Feature Stores podem prever a procura de certos recursos com base nos tipos de dados que estão a ser modelados.
A popularidade da tecnologia de bases de dados de séries cronológicas cresceu consideravelmente nos últimos dois anos por uma boa razão. Ao contrário das bases de dados relacionais que registam cada alteração nos dados como uma actualização, as bases de dados de séries cronológicas acompanham e registam-na (e o momento específico em que foi feita) como uma inserção única num conjunto de dados.
Com a explosão dos dados temporais da IdC e das tecnologias de monitorização, entre outras, tanto a análise histórica como a de previsão dependem cada vez mais da capacidade de consultar um valor de dados a partir de um ponto no tempo e de o seguir continuamente, com precisão e eficiência.
Dados altamente interligados podem ser difíceis de analisar e de utilizar em todo o seu potencial. Ao utilizar bases de dados relacionais tradicionais onde os dados são organizados em tabelas, é possível identificar e gerir um número limitado de relações de dados. Entretanto, à medida que os dados se tornam mais volumosos e menos estruturados, o número de relações e interconexões aumenta exponencialmente, tornando-se assim completamente incontrolável nos modelos tradicionais de bases de dados.
As bases de dados baseadas em gráficos são especificamente concebidas para enfrentar este desafio, armazenando não só dados, mas também informações sobre as relações de cada ponto de dados nativamente. Com este modelo, as consultas sobre relações complexas entre dados podem ser rápidas, eficientes e mais precisas. Com o custo de armazenamento da informação cada vez mais baixo; agregar e organizar volumes maciços de dados já não é um custo proibitivo. Além disso, as arquitecturas de dados modernas requerem menos manutenção, o que reduz os custos administrativos e de reparação.
À medida que começares a captar mais dados, é provável que necessites incluir dados fragmentados gerados através de dispositivos, canais e locais. Mas como é possível ligar dados fragmentados de uma forma que possa segmentar um cliente individual num contexto individual? Ou como revelar uma necessidade não satisfeita do mercado, ou revelar uma oportunidade interna para uma maior eficiência?
Desbloquear o valor total de todos os activos de dados, incluindo os Dark Data e dados não tradicionais, pode ser complexo e dispendioso, especialmente em grandes empresas com centenas de sistemas legacy, dados duplicados armazenados em todo o mundo, e práticas de nomeação inconsistentes. Ao começar a trabalhar para criar a nova base para os seus dados, é provável que enfrente um duplo desafio. Em primeiro lugar, para tomar decisões mais precisas, será necessário analisar mais do que apenas os dados óbvios.
De facto, necessitarás dos dados não óbvios: informação que ninguém sabe que existe. Portanto, mesmo que pudesses recolher todos os dados conhecidos e desconhecidos no teu negócio, como poderias ligar estes dados díspares e formatados de forma inconsistente de uma forma significativa? O trabalho de descoberta e ligação de dados organizacionais pode ser complexo e dispendioso. No entanto, contornar este desafio podes custar-lhe ainda mais se o teu negócio falhar oportunidades potencialmente valiosas.
A boa notícia é que as tecnologias de gestão de dados cognitivos com tecnologias de Machine Learning disponíveis hoje em dia podem ajudar a acelerar os processos de descoberta de dados, de conhecimentos e de conexões:
A análise, os modelos semânticos e a tecnologia cognitiva podem automatizar dispendiosas actividades de gestão manual, libertando os Data Scientists para se concentrarem em análises mais avançadas.
Identificar as semelhanças no código dos sistemas de dados subjacentes torna possível aos Data Scientists a utilização de algoritmos personalizados em múltiplos modelos de dados.
Finalmente, ao tirar o máximo partido das capacidades da Machine Learning para automatizar o processamento de dados principais, os administradores de dados cognitivos podem ajudar os utilizadores a visualizar as relações entre dados, melhorar a prontidão e qualidade dos dados, e permitir uma maior eficiência na gestão de dados.
Num futuro muito pr óximo, as capacidades dos administradores de dados crescerão através da utilização de novas ferramentas que ajudarão na ingestão, classificação, gestão e descoberta.
Referências: Tech Trends 2021; Deloitte