As 11 técnicas mais utilizadas na modelagem de analítica preditiva

Sem dúvidas, a analítica preditiva mudou de forma definitiva as regras do jogo. Hoje em dia todas as empresas têm à sua disposição soluções avançadas para analisar os seus dados e prever o que irá acontecer no seu negócio nos próximos meses.

A análitica preditiva é uma das utilizações mais frequentes do machine learning, uma vez que é uma das mais úteis em atender as ecessidades da maioria das empresas. Muitos sectores já estão a utilizá-la para prever o comportamento dos seus clientes a fim de ajustar a sua carteira, preços, sentimento futuro em relação à sua marca, optimizar a sua produtividade ou prevenir a fraude.

Este tipo de análise utiliza métodos matemáticos para prever eventos ou resultados futuros. Através de um processo iterativo, o modelo de previsão é desenvolvido utilizando um conjunto de dados de formação e depois testado e validado para determinar a sua exactidão, a fim de fazer as melhores previsões.

Os tipos de modelos preditivos

Existem dois tipos de modelos de previsão: modelos de classificação e modelos de regressão.

Os modelos de classificação prevêem a adesão à classe. Por exemplo, se tentarmos classificar entre os nossos clientes os mais propensos a desistir. Os resultados do modelo são binários, ou sim ou não (sob a forma de 0 e 1) com o seu grau de probabilidade. Ou seja, podem dizer-nos que um cliente nos abandonará com 89% de probabilidade.

Por outro lado, os modelos de regressão possibilitam-nos prever um valor. Por exemplo, ajuda-nos a identificar qual é o benefício estimado que obteremos de um determinado cliente nos próximos meses ou pode ajudar a estabelecer estimativas do forecast de vendas.

As técnicas de Analítica Preditiva

Apesar das diferenças metodológicas e matemáticas entre os tipos de modelos, o objectivo geral de todos eles é semelhante: prever resultados futuros com base em dados passados.

Embora existam algumas técnicas específicas de classificação e outras de regressão, a maioria das técnicas funcionam com ambas. Uma fonte frequente de confusão é a técnica de regressão logística, que só funciona para problemas de classificação e não para regressão.

1. Árvores de decisão

Estes são modelos de classificação amplamente utilizados que tentam encontrar a variável que permite dividir o conjunto de dados em grupos lógicos que são mais diferentes uns dos outros. Cada árvore é decomposta em diferentes ramos e folhas que representam cada classificação de acordo com as condições que são seleccionadas até que o problema seja resolvido. Estes modelos são de grande ajuda na determinação de decisões ao longo de um processo como o funil de compra.

2. Redes Neurais

A Inteligência Artificial e o Machine Learning tornaram esta técnica sofisticada de reconhecimento de padrões que imita os neurónios do cérebro humano muito na moda, uma vez que é capaz de modelar relações extremamente complexas e é frequentemente utilizada quando não se conhece a natureza exacta da relação entre os valores de entrada e saída.

3. Máquinas Vectoriais de Apoio (SVM)

Estes são algoritmos supervisionados de aprendizagem mecânica para reconhecimento de padrões, estando relacionados com problemas de classificação ou regressão.

4. Análise Bayesiana

Esta é uma inferência estatística na qual são utilizadas provas ou observações para actualizar ou inferir a probabilidade de uma hipótese ser verdadeira.

5. Regressão logística

As regressões logísticas são utilizadas para prever o resultado de uma variável categórica (uma variável que pode assumir um número limitado de categorias) em função das variáveis independentes ou preditoras. É útil para modelar a probabilidade de um evento ocorrer em função de outros factores. Por exemplo, pode ser utilizado para prever o risco de crédito.

6. Regressão Linear

A regressão linear consiste numa linha recta que mostra o "melhor ajuste" de todos os pontos dos valores numéricos. Também é chamado o método dos mínimos quadrados porque calcula a soma das distâncias quadráticas entre os pontos que representam os dados e os pontos da linha que gera o modelo. Assim, a melhor estimativa será aquela que minimiza estas distâncias.

7. Séries cronológicas e Data Mining

Este método combina uma mistura de técnicas tradicionais de mineração de dados tais como amostragem, agrupamento e árvores de decisão, com outras técnicas de previsão, a fim de melhorar as previsões sobre os dados recolhidos como vendas por mês ou trimestre, médias de chamadas diárias, ou visitas a um sítio web a cada hora.

8. K-Nearest Neighbours

A frase "Digam-me com quem vão e eu digo-vos quem são" explica perfeitamente como funciona este algoritmo de agrupamento. Consiste em reconhecer padrões, a fim de conhecer a probabilidade de um elemento pertencer a uma classe de acordo com a sua proximidade no espaço aos elementos dessa classificação.

9. Ensemble Models

É famosa pela sua exactidão devido à disponibilidade de algoritmos de reforço e ensacamento. Cria um novo modelo através da formação de vários modelos semelhantes, combinando os resultados para melhorar a precisão, reduzir a variância e o enviesamento e identificar o melhor modelo a utilizar com novos dados.

10. Gradient Boosting

Realiza um método de reamostragem no nosso conjunto de dados para gerar resultados que formam uma média ponderada do conjunto de dados.

11. Modelos de Resposta Incremental

Frequentemente utilizado para reduzir a rotatividade ou para testar a eficácia de diferentes acções de marketing. É um modelo da mudança de probabilidade causada por uma acção.

Agora que conhece as principais técnicas de modelação da análise preditiva, pode compreender melhor como funciona e dar o próximo passo na sua estratégia de Análise de Dados.