Marina Melo Pires

 

Título



Agrupamento Incremental e Hierárquico de Documentos

Orientador(es)



Alexandre Gonçalves Evsukoff

Resumo



Essa dissertação apresenta um estudo sobre a utilização e desempenho do algoritmo de agrupamento incremental e hierárquico, em bases de documentos conhecidas e que já foram utilizadas com outros algoritmos. A etapa de préprocessamento dos dados foi realizada com a utilização da plataforma “Biguá”, aplicada para os idiomas português e inglês e para os formatos de documentos em txt e pdf. Foram utilizadas três bases como estudos de caso, e para todas foram utilizados três métodos de similaridades. O agrupamento incremental foi executado com várias taxas para poder avaliar o grau de coesão dos grupos formados. Como resultado do algoritmo incremental e hierárquico, é gerado uma árvore contendo nove níveis representando os grupos formados e suas relações.

Abstract



This dissertation presents a study on the use and performance of the incremental and hierarchical Clustering algorithm, in known document databases and that have already been used with other algorithms. The stage of data pre-processing was performed with the use of the "Biguá" platform, applied for Portuguese and English languages and for txt and pdf documents formats. Three bases were used as case studies, and were used for all three methods of similarities. The Clustering was executed with several incremental rates to assess the degree of cohesion among the groups formed. As a result of incremental and hierarchical algorithm, it generated a tree containing nine levels representing the groups formed and their relations.

Print