José Cláudio Garcia Damaso

Título



Otimização do Processo de Seleção de Atributos para Agrupamento de Dados

Orientador(es)



Beatriz de Souza Leite Pires de Lima

Resumo



Este trabalho apresenta um programa computacional implementado na linguagem Java que seleciona atributos mais representativos de uma base de dados, agrupa dados utilizando a técnica de segmentação e calcula índice de agrupamentos.  A seleção de atributos utiliza a técnica probabilística de algoritmo genético através da correlação de variáveis para selecionar as mais correlatas entre si e menos correlatas entre as outras classes. O agrupamento de dados utiliza a técnica de segmentação utilizando método particional K Means e os resultados podem ser encontrados e avaliados através dos índices Calinski e Harabasz ou PBM.  Para validar a ferramenta desenvolvida foram empregadas 4 bases de dados e os resultados foram bastante satisfatórios.

Abstract



This paper presents a computer program implemented in Java language that selects the most representative attributes from a data base, executes data clustering using segmentation technique and calculates clustering index.  The attribute selection uses the genetic code probabilistic algorithm technique through correlation of variables to choose the most correlated with each other and the less correlated among the other classes. The user chooses how many attributes will be selected as a result.  Data clustering uses the segmentation technician through the partitional K-Means method and its result can be viewed and evaluated either by the Calinski or Harabasz or PBM indexes.  The validation of the program developed in this work was done by using 4 data bases and the results found were very good.

Print