Estevam Rafael Hruschka Júnior

Título



Imputação Bayesiana no Contexto da Mineração de Dados

Orientador(es)



Nelson Francisco Favilla Ebecken

Resumo



A substituição de valores ausentes em bases de dados (também chamada de imputação) é uma importante tarefa, na fase de preparação dos dados, para o processo de mineração de dados. Este trabalho apresenta um novo método de imputação tendo como base a representação do conhecimento através de redes bayesianas. As redes bayesianas são utilizadas como mecanismo de inferência na predição de valores adequados para se preencher as lacunas existentes em bancos de dados. Para tanto, além de se definir as etapas necessárias para a aplicação do novo método, realiza-se o desenvolvimento de um algoritmo de propagação de evidências em redes bayesianas chamado GBC e um método genérico de otimização do aprendizado de redes bayesianas a partir de dados. Os resultados experimentais mostram que o processo de otimização do aprendizado a partir de dados é adequado no contexto bayesiano, e o método de imputação é consistente.

Abstract



The substitution of missing values in databases (also called imputation) is an important task in the data preparation step of the KDD (Knowledge Discovery in Databases) process. This work presents a new imputation method based on bayesian structures. Bayesian Networks are employed to infer values which will be used to fill-in the gaps present in the databases. Furthermore, a simple bayesian network evidence propagation algorithm (Global Bayesian Conditioning - GBC) and an optimization step to be applied in a bayesian network learning procedure are developed. The experimental results show that the GBC algorithm is useful and the optimization step and the imputation method are consistent.

Imprimir