| Qual a definição para data mining? |
Por:
Cezar Taurion
Uma das tecnologias de apoio ao CRM e que mais despertam
atenção, embora ainda sejam relativamente desconhecidas é o
data mining ou mineração de dados. Dificilmente dois
profissionais de TI coincidem nas suas definições sobre o que
é data mining! Mas podemos usar a seguinte definição:
"data mining é um processo de extração e apresentação
de informações utilizáveis, implícitas e recentes a partir de
dados, que possam ser utilizadas para resolver um problema de
negócios."
Analisando esta definição observamos que falamos em processo,
ou seja, não é apenas uma tecnologia, mas uma série de etapas
inter-relacionadas. E o objetivo final é descobrir informações
que tenham valor significativo para as empresas. Daí resolver um
problema de negócios...
Do lado tecnológico, existem diversas ferramentas de data mining
no mercado. Entretanto, as técnicas de garimpagem de dados
adotadas pelo fornecedor são diferentes e em conseqüência, as
suas aplicabilidades também não são as mesmas.
Um data mining não é uma panacéia que resolve todos os
problemas. Apenas tenta descobrir os padrões e relacionamentos
entre dados de modo que a empresa possa se embasar melhor para a
tomada de decisões. Não é mágica!
A ferramenta de mineração de dados pode ser arma poderosa para
extração de informações úteis perdidas em toneladas de dados
aparentemente sem relacionamentos entre si. E por outro lado, um
uso incorreto desta tecnologia pode gerar muito mais confusão,
levando a empresa a tomar decisões erradas.
Embora só recentemente o tema mineração de dados tenha
aparecido na mídia, despertando o interesse dos profissionais de
TI, as suas técnicas básicas já existem há muito tempo,
algumas desde os anos 40.
Hoje existem diversos produtos no mercado, a maioria ainda
voltada a garimpar dados em bases de dados relacionais ou
multidimensionais. Em breve, com a expansão acelerada da Web,
estas ferramentas deverão começar a extrair informações de
uma imensa base de dados armazenadas em meios tão díspares
entre si como texto, imagem ou vídeo, buscando padrões de uso
de sites de e-commerce.
Uma ferramenta de data mining pode ser usada em diversas áreas
de negócio, como finanças, seguros, saúde, transporte,
telecomunicações e varejo, apenas para citar algumas. No
âmbito das iniciativas CRM podemos pensar em usar mineração de
dados para ações de marketing dirigido, retenção de clientes,
detecção de fraudes, análise de cesta de compras,
segmentação de clientes, pontuação de crédito, avaliação
de riscos de crédito, análise da lucratividade de clientes,
gerenciamento de campanhas, análise e desempenho de canal de
distribuição, loja ou filial, e assim por diante!
Existem, em nível internacional, inúmeras aplicações de
sucesso reportadas que incluem casos interessantes como:
a)Uma aplicação que analisa empréstimos baseados nos padrões
de compra, crédito e endividamento dos clientes;
b)Um supermercado que organiza suas gôndolas de acordo com os
padrões de compras associadas entre produtos;
c)Um laboratório farmacêutico americano que envia material
promocional baseado nas prescrições médicas e padrões de vida
dos clientes;
d)Uma empresa financeira que analisa fraudes baseadas nos
padrões de compra de seus clientes;
e)Uma empresa aérea que usa informações sobre padrões e
tendências de viagens para maximizar a ocupação de seus vôos.
f)Uma empresa de telefonia celular que, baseada em padrões de
uso dos telefones e outros fatores de mercado, faz previsões de
quais clientes estão propensos a migrar para os concorrentes.
A escolha da ferramenta de data mining deve ser considerada com
atenção. As técnicas adotadas em cada produto são diferentes
e portanto suas aplicações também são variadas. As técnicas
mais conhecidas são:
a)Classificação. Esta técnica agrupa itens baseados em
atributos pré-definidos, como, por exemplo, identificar os
clientes que moram na Barra da Tijuca, no Rio de Janeiro, que
tenham apartamento próprio e viajem ao exterior.
b)Associação. Busca correlações entre itens e indivíduos,
deduzindo relacionamentos. Um exemplo típico é identificar que
quem compra peixe compra também vinho branco.
c)Clustering. Agrupa itens baseados em atributos como clientes
tipo C serão aqueles que tem renda mensal menor que R$ 2.000,00;
clientes tipo B terão renda mensal entre R$ 2001,00 e R$
5.000,00 e clientes tipo A terão renda maior que R$ 5001,00.
d)Predição. Buscar prever tendências como no ano 2005 o Ticket
médio de cada checkout será de R$ 500,00.
e)Estimativa. Examina tendências e padrões para deduzir outras
caraterísticas. Um exemplo seria analisar padrões de compra de
determinado cliente para identificar se este tem filhos pequenos.
f)Análise de desvio ou afastamento. Compara dados reais de modo
a preestabelecer normas que detectem anomalias. Pode-se usar esta
técnica para identificar fraudes baseadas em desvios dos
padrões normais de compras.
A primeira etapa de um projeto de data mining é definir
claramente os objetivos a serem alcançados. Para que eu preciso
de um data mining? Que resultados espero alcançar? Tenho
condições (recursos e expertise do grupo de tecnologia e dos
usuários que usarão a ferramenta) para implementar um projeto
esta natureza? Será necessário expertise externa para
complementar meu grupo de trabalho? Que tipo de técnica de data
mining será mais adequada as análises que preciso fazer?
Esta é uma questão muito importante. Nem todas as técnicas
respondem adequadamente às necessidades de análise da
organização.
Basicamente existem dois modelos de análise. No primeiro,
verificação, você já tem hipóteses e quer apenas
validá-las. O usuário é o responsável pela formulação das
hipóteses e direciona a ferramenta para confirmá-las ou não.
No outro modelo, descoberta, você está buscando
identificar correlações em uma massa de dados. São approaches
diferentes e que demandam de técnicas diferentes. E,
consequentemente, ferramentas diferentes...
A seguir precisarmos identificar as bases de dados. A existência
de um Data Warehouse é requisito básico. Um Data Warehouse
deverá ser construído para agrupar, estruturar e formatar
as diversas e heterogêneas fontes de dados para que a
garimpagem seja bem sucedida. Os dados deverão ser validados, ou
seja, a sujeira deverá ser eliminada. Este é um aspecto
importante: se a base de dados não for válida, não será
extraída nenhuma informação útil. Ou seja, não vale a pena
garimpar em um local que não tenha ouro...
A interpretação dos dados e as posteriores ações são
fundamentais para o sucesso do data mining. Se a empresa
identificou que cervejas e fraldas são compradas juntas e não
reorganizou as gôndolas não adianta nada ter um data mining.
Lição básica: um projeto de data mining não deve ser um
projeto patrocinado pela área de TI. É um projeto dos usuários
que usarão a ferramenta.
Não devemos esperar milagres de um data mining. Dificilmente ele
vai produzir resultados surpreendentes que transformarão uma
empresa, tornando-a muito mais lucrativa de um dia para o outro.
Por outro lado o data mining bem aplicado pode resultar em
decisões embasadas, com resultados concretos para o negócio.
É essencial que os usuários tenham capacitação no seu uso.
São eles que criarão modelos, formularão e testarão
hipóteses ou agirão sobre relacionamentos recém descobertos.
Se a organização não tiver maturidade suficiente para usar
rotineiramente um data mining, seu sucesso será questionável.
Cezar Taurion é consultor da Pricewaterhouse Coopers
Para ter sua matéria publicada aqui, envie-nos um e-mail