Marcelo Beckmann

Título


Algoritmos genéticos como estratégia de pré-processamento em conjuntos de dados desbalanceados

Orientador(es)


Beatriz de Souza Leite Pires de Lima
Nelson Francisco Favilla Ebecken

Resumo


Em mineração de dados, a classificação tem como objetivo rotular eventos e objetos de acordo com classes pré-estabelecidas. Todavia, os algoritmos tradicionais de classificação tendem a perder sua capacidade de predição quando aplicados a um conjunto de dados cuja distribuição de instâncias entre classes é desbalanceada. Uma das estratégias para solucionar este problema consiste em efetuar um pré-processamento no conjunto de dados de forma a equalizar a distribuição de exemplos entre as classes. Este trabalho tem como objetivo apresentar uma proposta de pré-processamento utilizando algoritmos genéticos, de forma a se criar instâncias sintéticas da classe com menor número de exemplos. Os experimentos com o algoritmo proposto apresentaram melhor desempenho de classificação na maioria dos casos, em comparação aos resultados de três estudos publicados. Também se verificou que as instâncias sintéticas foram criadas longe da superfície de decisão, e que a aplicação da técnica de
aprendizado incremental diminuiu o tempo de processamento do mesmo.

Abstract


In data mining, the classification aims to label events and objects according classes previously established. Nevertheless, the traditional classification algorithms tend to loose its predictive capacity when applied  on a dataset which distribution between classes is imbalanced. One of the strategies to resolve this problem is to execute a pre-processing on a dataset in order to equalize the examples distribution among the classes. This work aims to present one proposal of pre-processing using genetic algorithms, in order to create synthetic instances  from the class with less number of instances. The experiments with the proposal algorithm demonstrated a better classification performance in most of the problems, in comparison with three studies published. It was also demonstrated the synthetic instances were created far from the decision surface, and the application of incremental learning technique decreased the processing time.

Save

Save

Save

Print