Maria Célia Santos Lopes

Título



Mineração de Dados Textuais Utilizando Técnicas de Clustering para o Idioma Português

Orientador(es)



Nelson Francisco Favilla Ebecken

Resumo



Esta tese se concentra no desenvolvimento de uma solução que realize o clustering de documentos cujos conteúdos se apresentam no idioma Português. O presente trabalho é composto de três módulos distintos, sendo que cada módulo gera a entrada para o módulo seguinte. O primeiro módulo realiza o pré-processamento de dados textuais fazendo as considerações necessárias para o tratamento de dados textuais em Português. O segundo módulo é o módulo de clustering de dados, que disponibiliza diferentes métodos, é alimentado pela etapa de preparação dos dados, e gera a saída de acordo com o método escolhido. A visualização de resultados é considerada de grande auxílio para a interpretação e utilização dos resultados fornecidos por um processo de clustering. Dessa forma, o terceiro módulo é o módulo de visualização que disponibiliza uma forma facilmente interpretável de visualização de resultados.

Abstract



This thesis focuses on the development of a document clustering solution which deals with document contents in Portuguese. The current work presents three distinct modules, each module generating the input to the next one. The first module presents text data preprocessing, performing all considerations needed for textual data treatment in Portuguese. The second module is the clustering module which disposes different methods, it is fed with data preparation phase output, and displays results according to the method chosen. The visualization of results is considered of great help in order to use and interpret results coming from a clustering process. Thus, the third module is the visualization one, which disposes an easily interpretable way of visualizing results.

Imprimir