Mineração de Dados e Dados Faltantes

Posted on 26 de março de 2012

Mineração de Dados e Dados Faltantes

Grande parte dos modelos de predição usados em mineração de dados, entre eles regressão linear múltipla, regressão logística e redes neurais, pressupõe que todos os valores das informações das variáveis associadas a cada observação são conhecidos e foram corretamente anotados. Entretanto, a perda ou o não registro de parte das informações é uma situação freqüente que ocorre em diversas áreas do conhecimento, tais como finanças, saúde, e ciências sociais.
Missing data ou dados faltantes são informações incompletas ou perdidas que ocorrem porque o respondente se recusa ou é incapaz de dar a resposta correta a um ou vários itens. Outra causa de não resposta está na falha do entrevistador ao perguntar ou registrar a resposta, levando em uma etapa posterior a se considerar a informação incorreta em um processo de edição dos dados e análise de consistência.

Uma abordagem bastante comum com dados faltantes é utilizar na análise apenas as observações com informações completas de todas as variáveis envolvidas. Entretanto, se houver diferenças entre o padrão de comportamento dos indivíduos com informações completas dos com informações faltantes, as estimativas podem ser viesadas levando a adoção de modelos não adequados.

Assim é importante incorporar na análise preliminar descritiva procedimentos para comparar o padrão de resposta da variável de interesse entre os grupos de casos completos e incompletos.

Quando o índice de dados faltantes é menor que 20%, uma alternativa para o uso de todas as observações é a imputação de dados ou data imputation onde a não resposta é substituída por algum valor admissível.

E um processo de mineração, após as etapas de amostragem e exploração, a etapa de modificação de dados contempla procedimentos que envolvem a seleção e transformação de variáveis, criação de novas sugeridas na etapa de exploração, e também a imputação de valores faltantes.

Como estratégia, é conveniente o analista incluir em seus procedimentos, a análise acurada dos valores faltantes na ação de exploração de dados. O uso habitual de técnicas estatísticas gráficas e numéricas pode levar a identificação do padrão da não resposta e do tipo de mecanismo que a gerou. Quanto ao tipo de mecanismo, existem: perda completamente aleatória (missing completely at random), perda aleatória (missing at random), e perda não aleatória (not missing at random).

Entre as alternativas para se trabalhar tanto com valores absurdos como faltantes estão: a) a exclusão do indivíduo do banco de dados; b) correção total, refazendo o processo que gerou todas as informações do indivíduo; c) sua mitigação através de um processo de substituição por um valor razoável; e d) deixar como está e adotar um modelo que capture essas características.

Quando a alternativa for mitigação através de um processo de substituição, devemos levar em conta o padrão e tipo de mecanismo gerador da não resposta na escolha das diferentes opções para imputação dos dados.

Os métodos mais simples de imputação são aqueles que usam uma constante para cada valor faltante de uma específica variável e os candidatos naturais são: a média, a mediana ou o valor mais freqüente.

Por ser de implantação fácil e imediata, esses métodos têm sido bastante usados. Entretanto, duas desvantagens são identificadas: a) introduzir artificialmente uma baixa estimativa da variabilidade da variável, levando a obtenção de intervalos de confiança inadequados ou viciados com comprimentos menores do que o esperado, e b) ignorar diferentes valores admissíveis.

Para reverter essa situação, outros métodos de imputação levam em consideração a estrutura multivariada da observação para obter um valor plausível a ser usado.

Uma família de abordagens leva em consideração a formação de grupos de imputação baseados em uma ou mais variáveis explicativas relevantes conhecidas em todas as observações: a) média da casela ou cell mean: para cada observação com valor faltante de uma variável específica é imputado o valor da média da casela correspondendo ao grupo de imputação correspondente a combinação de duas ou mais variáveis explicativas categorizadas em intervalos de classe; b) imputação aleatória dentro da casela ou random within-cell hot-deck: para cada observação com valor faltante de uma variável específica é imputado com valor de um doador que corresponde a uma observação selecionada aleatoriamente dentro do grupo de imputação; c) imputação aleatória pelo vizinho mais próximo ou nearest neighbor within-cell hot-deck: para cada observação com um valor faltante um doador compatível é selecionado aleatoriamente do grupo de imputação.

Os métodos de regressão para imputação de dados envolvem a construção de modelos de regressão cuja variável resposta corresponde à variável com valor faltante e as variáveis explicativas, as demais variáveis com valores conhecidos. Para cada variável com valor faltante, um modelo de regressão é ajustado baseado nas observações com valores conhecidos: a) modelos de regressão ou regression methods; b) modelos bayesianos de regressão linear ou bayesian linear regression.

Uma terceira família de abordagens leva em consideração a obtenção de vários conjuntos completos de observações e não apenas um: imputação múltipla ou multiple imputation ou imputação múltipla é uma técnica estatística de análise de dados incompletos em que cada dado faltante é imputado m vezes gerando m bancos de dados.

Cada um dos bancos gerados são individualmente analisados por métodos estatísticos tradicionais e os resultados combinados por um procedimento conhecido como regras de Rubin (Rubin rules).

Sendo o parâmetro de interesse; , …, , as estimativas em cada uma das análise; e , …, , as variâncias estimadas das estimativas, as regras de Rubin envolvem: a) a média das estimativas individuais, ; b) a média das variâncias estimadas das estimativas em cada banco, ; c) a variância entre as estimativas, ; e d) a variância total, .

Em geral, os métodos de imputação múltipla produzem estimativas aproximadamente não viesadas e com erros padrão menores quando comparados com os demais métodos. Essas propriedades são mais evidentes quando o tipo de não resposta é perda aleatória.

Esses resultados foram verificadas em diversos trabalhos de simulação onde foi possível controlar o tipo de imputação e a correlação existente entre as variáveis envolvidas.

Na prática, quando existem evidências da violação dessas condições, os métodos de imputação não produzem bons resultados.

Os métodos de imputação múltipla podem ser usados em qualquer tipo de variável e em qualquer tipo de análise, sem a necessidade de software especializado.

No mercado existem diversos softwares que podem ajudar na análise de dados faltantes, entre eles: SOLAS, STATA, R, SAS, e SAS Enterprise Miner.

_________________________

Maria Cecilia Mendes Barreto é bacharel e mestre em Estatística (IME/USP), doutor em Estatística e Experimentação Agronômica (ESALQ/USP), com pós-doutorado em Estatística no Meio Ambiente (The University of Nottingham). Docente e pesquisador na Universidade Federal de São Carlos (1977 a 2007), atuou na graduação e pós-graduação, tendo orientado mais de 15 trabalhos (graduação e mestrado) e publicado mais de 20 trabalhos em revistas especializadas e anais de congressos. Consultor em Estatística e pesquisa de mercado na StatSol/Sampling (2004 a 2008) quando desenvolveu projetos relacionados ao Projeto Basiléia II junto ao setor financeiro. Atualmente é consultor em Métodos Analíticos e instrutor de cursos em SAS na Infomev Consulting.

by Lilian Fagundes

Mineração de Dados e Dados Faltantes