Fabiane dos Reis Braga

Título

Metodologia para Extração Semiautomática de uma Taxonomia de Conceitos a Partir da Produção Científica da Área Nuclear Utilizando Técnicas de Mineração de Textos

 

Orientador(es)

Nelson Francisco Favilla Ebecken

 

Resumo

Esta tese apresenta uma metodologia de mineração de textos para a extração semiautomática de uma taxonomia de conceitos, a partir de um corpus textual composto de documentos científicos relacionados à área nuclear. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras para representar um documento. Este modelo gera uma alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta neste trabalho apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. Desta forma espera-se que este trabalho possa contribuir para o mapeamento conceitual da produção científica da área nuclear e apoiar a gestão das atividades de pesquisa nessa área.

 

Abstract

This thesis presents a text mining method for semi-automatic extraction of taxonomy of concepts, from a textual corpus composed of scientific papers related to nuclear area. The text classification is a natural human practice and a crucial task for work with large repositories. The document clustering technique provides a logical and understandable framework that facilitates the organization, browsing and searching. Most clustering algorithms using the bag of words model to represent the content of a document. This model generates a high dimensionality of the data, ignores the fact that different words can have the same meaning and does not consider the relationship between them, assuming that words are independent of each other. The methodology presents a combination of a model for document representation by concepts with a hierarchical document clustering method using frequency of co-occurrence concepts and a technique for clusters labeling more representatives, with the objective of producing a taxonomy of concepts which may reflect a structure of the knowledge domain. It is hoped that this work will contribute to the conceptual mapping of scientific production of nuclear area and thus support the management of research activities in this area.

 

 

Print