Cristian Klen dos Santos

Título



Análise de Agrupamento em Coleções de Documentos: Uma Abordagem Baseada na Detecção Espectral de Comunidades em Redes Complexas

Orientador(es)



Alexandre Gonçalves Evsukoff

Resumo



A análise de agrupamento em coleções de documentos é um dos principais temas de pesquisa em mineração de textos e lida com a tarefa de encontrar grupos de documentos com conteúdos similares. Neste trabalho, estuda-se uma abordagem alternativa para a representação de uma coleção de documentos como uma rede de informações baseada no conteúdo, chamada de rede de documentos, cujos elementos representam os documentos e as arestas as similaridades entre pares de documentos.  Através desta nova representação, explora-se a aplicabilidade dos métodos espectrais de agrupamento em coleções de documentos. Especificamente, investiga-se a utilização dos métodos de detecção de comunidade como ferramenta de análise de agrupamento através da maximização espectral da função de modularidade, que quantifica a divisão de uma rede em comunidades. Esses métodos, que possuem a característica de conseguir determinar o número de grupos como subproduto do próprio processo, são avaliados através de experimentos em coleções de documentos de benchmark e de casos reais, e são comparados com métodos tradicionais de agrupamento, usando tanto a representação de rede como a representação clássica do Modelo de Espaço Vetorial, apresentando resultados motivadores.

Abstract



Clustering Analysis in document collections is one of the main research topics in text mining and deals with the task of find out groups of documents with similar content. In this work, we study an alternative approach for rendering a document collection as an information network based on document’s contents, named document network, whose elements represent the documents and the edges the similarities between pairs of documents. By means of that new representation, we explore the applicability of spectral clustering methods in documents collections. Specifically, we inquire the utilization of the community detection methods as a clustering analysis tool by way of spectral maximization of modularity function, which quantifies the network partitioning into communities. These methods, that have the feature of get fix the number of clusters as a byproduct of its own procedure, are evaluated by experiments in benchmark and real life document collections, and they are compared with traditional clustering methods, using as much network representation approach as classical representation approach, by means of Vector Space Model, showing motivating results.

Print