Claudia Abreu Paes
Resumo
Esta dissertação apresenta uma proposta metodológica para caracterização topológica de redes complexas formadas por informações textuais não estruturadas. A partir do processo de pré-processamento de uma coleção de documentos, a rede de documentos é gerada como um grafo no qual cada vértice representa um documento e as arestas são ponderadas pela similaridade entre documentos. A topologia da rede de documentos é analisada por um conjunto de medidas propostas na literatura para caracterização de redes complexas. Foi realizado um estudo de caso com quatro conjuntos de documentos de naturezas variadas quanto ao idioma e volume, para avaliação da metodologia proposta. Os resultados mostram que os conjuntos de documentos apresentam uma topologia característica de redes livres de escala, de forma que uma série de resultados apurados pode ser empregada no processo de extração de conhecimento a partir de coleção de documentos.
Abstract
This dissertation presents a methodological proposal for topological characterization of complex networks formed by non structuralized literal information. From the process of daily pre-processing of a document collection, the document networks is generated as a graph in which each vertex represents a document and the edges are weighed for the similarity between documents. The topology of the document network is analyzed by a set of measure proposals in literature for characterization of complex networks. For evaluation of the methodological proposal, it was carried through a study of case with four sets of documents of varied nature as to the language and volume. The results show that the sets of documents present a topology of scale free networks, so that a series of refined results can be used in the process of extraction of knowledge from document collection.