Marcelo Beckmann

Título

Algoritmos genéticos como estratégia de pré-processamento em conjuntos de dados desbalanceados

Orientador(es)

Beatriz de Souza Leite Pires de Lima
Nelson Francisco Favilla Ebecken

Em mineração de dados, a classificação tem como objetivo rotular eventos e objetos de acordo com classes pré-estabelecidas. Todavia, os algoritmos tradicionais de classificação tendem a perder sua capacidade de predição quando aplicados a um conjunto de dados cuja distribuição de instâncias entre classes é desbalanceada. Uma das estratégias para solucionar este problema consiste em efetuar um pré-processamento no conjunto de dados de forma a equalizar a distribuição de exemplos entre as classes. Este trabalho tem como objetivo apresentar uma proposta de pré-processamento utilizando algoritmos genéticos, de forma a se criar instâncias sintéticas da classe com menor número de exemplos. Os experimentos com o algoritmo proposto apresentaram melhor desempenho de classificação na maioria dos casos, em comparação aos resultados de três estudos publicados. Também se verificou que as instâncias sintéticas foram criadas longe da superfície de decisão, e que a aplicação da técnica de
aprendizado incremental diminuiu o tempo de processamento do mesmo.

Abstract

In data mining, the classification aims to label events and objects according classes previously established. Nevertheless, the traditional classification algorithms tend to loose its predictive capacity when applied on a dataset which distribution between classes is imbalanced. One of the strategies to resolve this problem is to execute a pre-processing on a dataset in order to equalize the examples distribution among the classes. This work aims to present one proposal of pre-processing using genetic algorithms, in order to create synthetic instances from the class with less number of instances. The experiments with the proposal algorithm demonstrated a better classification performance in most of the problems, in comparison with three studies published. It was also demonstrated the synthetic instances were created far from the decision surface, and the application of incremental learning technique decreased the processing time.

Download

Save

Marcelo Beckmann

Título

Orientador(es)

Resumo

Abstract

Download