Certamente você se lembra daqueles tempos em que estava aprendendo a dirigir, não é? Quando chegava a hora de entrar no carro, era preciso seguir algumas etapas básicas para garantir que tudo estivesse em ordem e pronto para o carro dar a partida com segurança. Colocar o cinto de segurança, ajustar o encosto de cabeça, os espelhos e as luzes, colocar a primeira marcha, soltar a embreagem, ligar o carro, verificar os espelhos a cada poucos segundos etc.
No mundo dos dados, também é necessário seguir determinadas etapas que nos permitem aprender a gerenciar e a nos movimentar dentro deles. Tornar-se um especialista em dados envolve o mesmo: aprender as fases básicas de um projeto de análise de dados e acompanhá-las desde a preparação dos dados brutos até a construção de um modelo de aprendizado de máquina e, por fim, sua execução.
Para te ajudar nesse projeto, a Keyrus reuniu os sete principais passos que você precisa seguir para se tornar um verdadeiro especialista em dados, obter o maior valor comercial de seus projetos e reduzir os riscos.
A primeira fase de qualquer projeto sólido de análise de dados é entender o negócio ou a atividade da qual ele faz parte. Para passar da fase de elaboração do projeto para a produção, você precisará contar com o apoio de diferentes participantes para convencer e motivar. Para fazer isso, sua proposta deve ser a resposta a uma necessidade organizacional clara. Antes de pensar em dados, você precisa conversar com as pessoas da sua organização cujos processos ou negócios você deseja melhorar com a análise de dados.
Em seguida, sente-se e defina um cronograma e indicadores-chave de desempenho concretos. Sim... O planejamento e os processos são a parte mais entediante, mas são uma primeira etapa essencial para dar início à sua iniciativa de dados.
Se você estiver trabalhando em um projeto pessoal, brincando com um conjunto de dados ou criando uma API, essa etapa pode parecer irrelevante, mas não é. Não basta apenas fazer o download de um conjunto de dados aberto. Para ter motivação, direção e propósito, você precisa identificar uma meta clara do que deseja fazer com os dados: uma pergunta concreta a ser respondida, um produto a ser criado ou uma necessidade a ser satisfeita.
Como começar? Aqui estão algumas maneiras de obter dados úteis:
Conecte-se a um banco de dados: peça às suas equipes de dados e de TI os dados disponíveis ou abra seu banco de dados privado e comece a pesquisar nele para ver quais informações sua empresa tem coletado.
Use as APIs: pense nas ferramentas que sua empresa tem usado e nos dados que elas têm coletado - você precisa usá-las. É hora de trabalhar na configuração de todas elas para que você possa usar as estatísticas de abertura e cliques de e-mails, as informações que sua equipe de vendas colocou no Salesforce, o ticket de suporte que alguém enviou etc. Se você não for especialista em codificação, há plataformas que podem ajudá-lo, como a Dataiku. Seus plug-ins oferecem muitas possibilidades de inserir dados externos.
Pesquise dados abertos: a Internet está repleta de conjuntos de dados para enriquecer o que você tem com informações adicionais. Por exemplo, os dados do censo o ajudarão a adicionar a renda média do distrito onde seu usuário mora ou o OpenStreetMap pode mostrar quantas cafeterias existem em uma determinada rua.
Uma vez que você tenha seus dados, é hora de começar a trabalhar com eles.
Aviso: esta é provavelmente a fase mais longa, mais temida e mais incômoda de um projeto de análise de dados, pois ocupa 80% do tempo. Ela será dolorosa por algum tempo, mas, desde que você mantenha o foco no objetivo final, conseguirá passar por ela.
A primeira coisa a fazer é se aprofundar para ver o que você tem e como pode unir tudo isso para atingir a meta original. Comece a tomar notas de sua análise inicial e faça perguntas às pessoas da empresa, à equipe de TI ou a outros grupos para entender o significado de todas as suas variáveis.
O próximo passo é limpar todos esses dados. Não importa a quantidade de dados que você tenha, eles não serão úteis se não forem de boa qualidade. Você deve ter notado que, mesmo que tenha uma função de "país", por exemplo, há grafias diferentes ou até mesmo dados ausentes. É hora de examinar cada uma das colunas para garantir que os dados sejam homogêneos e limpos.
Por fim, um elemento de importância vital na preparação das informações que você não deve ignorar é a conformidade com as normas de privacidade de dados. A privacidade e a proteção de dados pessoais estão se tornando uma prioridade para usuários, organizações e legisladores. Para realizar projetos que estejam em conformidade com essas normas, você precisará implementar uma estratégia de governança de dados que permita fazer isso. Em seguida, será necessário designar claramente os conjuntos de dados e projetos que contêm dados pessoais e/ou confidenciais e que, portanto, precisam ser tratados de forma diferente.
Agora é hora de manipular os dados para obter o máximo valor deles. Inicie a fase de enriquecimento juntando todas as suas diferentes fontes e agrupando os registros para reduzir os dados aos recursos essenciais. Por exemplo, criar recursos baseados em tempo:
Extração de datas (mês, hora, dia da semana, semana do ano etc.).
Cálculo de diferenças entre colunas de datas
Marcação de feriados nacionais
Outra maneira de enriquecer os dados é unir conjuntos, ou seja, agrupar colunas em um conjunto de dados de referência. Esse é um elemento essencial de qualquer análise, mas pode se tornar um pesadelo quando você tem muitas fontes. Ferramentas como Dataiku permitem que você combine dados por meio de um processo simplificado, recuperando facilmente dados ou unindo conjuntos com base em critérios específicos e rigorosos, sem precisar fazer isso manualmente.
Ao coletar, preparar e manipular dados, é preciso tomar muito cuidado para não introduzir vieses não intencionais ou outros padrões indesejáveis. De fato, os dados usados para criar modelos de aprendizado de máquina e algoritmos de IA geralmente são uma representação do mundo externo e, portanto, podem ser profundamente tendenciosos em relação a determinados grupos e indivíduos. Um dos maiores medos dos dados e da IA é que o algoritmo pode não ser capaz de reconhecer o viés. Como resultado, o modelo é treinado com dados tendenciosos e interpretará o viés recorrente como uma decisão a ser reproduzida em vez de algo a ser corrigido.
Portanto, uma parte importante do processo de manipulação de dados é garantir que os conjuntos de dados usados não reproduzam ou reforcem qualquer viés que possa levar a resultados tendenciosos, injustos ou não equitativos. Estar ciente do processo de tomada de decisão do modelo de aprendizado de máquina e ser capaz de interpretá-lo é, atualmente, uma qualidade tão importante para um cientista de dados, se não mais, do que ser capaz de criar modelos em primeiro lugar.
Agora que você tem um bom conjunto de dados (ou talvez vários), é hora de começar a explorá-lo criando gráficos. Ao lidar com grandes volumes de dados, a visualização é a melhor maneira de entender e comunicar os resultados.
A parte complicada aqui é poder detalhar seus gráficos a qualquer momento e responder a quaisquer perguntas que alguém possa ter. É nesse momento que a preparação dos dados se torna útil: você fez todo o trabalho pesado, portanto, conhece os dados como a palma da sua mão.
Os gráficos também são outra maneira de enriquecer seu conjunto de dados e visualizar recursos mais interessantes. Por exemplo, se você colocar os pontos de dados em um mapa, poderá ver que determinadas áreas geográficas são mais reveladoras do que determinados países ou cidades.
É aqui que começa a verdadeira diversão. Os algoritmos de aprendizado de máquina podem ajudá-lo a dar um passo adiante na obtenção de insights e na previsão de tendências futuras.
Ao trabalhar com algoritmos de agrupamento (também conhecidos como não supervisionados), você pode criar modelos para descobrir tendências entre seus dados que são indistinguíveis em gráficos e estatísticas. Eles criam clusters e expressam de forma mais ou menos explícita qual característica é decisiva nos resultados.
Cientistas de dados mais avançados podem ir ainda mais longe e prever tendências futuras com algoritmos supervisionados. Ao analisar dados anteriores, eles encontram recursos que influenciaram tendências passadas e os utilizam para criar previsões. Mais do que apenas obter insights, essa última etapa pode levar à criação de produtos e processos totalmente novos.
Mas para obter valor real do projeto, o modelo preditivo não deve ficar na prateleira; ele precisa ser operacionalizado. Operacionalização significa simplesmente executar um modelo de aprendizado de máquina para uso em uma organização. A operacionalização é vital para a organização e para que você obtenha todos os benefícios de seus esforços.
O principal objetivo de qualquer iniciativa é demonstrar sua eficácia o mais rápido possível para justificar o trabalho realizado. O mesmo se aplica aos projetos de dados. Ao ganhar tempo com a limpeza e o enriquecimento dos dados, você pode chegar rapidamente ao final do projeto e obter os resultados iniciais. Essa é a fase final da conclusão de seu projeto de análise de dados e uma das mais importantes de todo o ciclo de vida dos dados.
Um dos maiores erros que as pessoas cometem em relação ao aprendizado de máquina é pensar que, depois que um modelo é criado e executado, ele continuará sendo executado normalmente por tempo indeterminado. Pelo contrário, os modelos perderão qualidade com o tempo se não forem continuamente aprimorados e alimentados com novos dados.
Para concluir com êxito seu primeiro projeto de dados, é preciso reconhecer que seu modelo nunca estará totalmente "completo". Para que permaneça útil e preciso, ele deve ser constantemente reavaliado, treinado novamente e novos recursos devem ser desenvolvidos. Se há algo que você pode tirar dessas etapas fundamentais, é que o trabalho de um cientista de dados nunca está realmente concluído; isso é o que torna o trabalho com dados ainda mais fascinante e desafiador.
Todos os direitos reservados à Dataiku.