Ingrid Martins de Oliveira

Título



Estudo de uma Metodologia de Mineração de Textos Científicos em Língua Portuguesa

Orientador(es)



Nelson Francisco Favilla Ebecken

Resumo



Este trabalho destina-se à extração de conhecimento de textos científicos e/ou literários em língua portuguesa através das análises estatística e contextual. Propõese desenvolver uma metodologia de Mineração de Textos, aplicando a técnica de Clustering na coleção de teses digitais da PUC-Rio, disponível no Sistema Maxwell. Esta técnica possibilita o agrupamento de textos em português, segundo a similaridade dos conteúdos para auxiliar a distribuição de documentos para determinados perfis de usuários ou pesquisas. Com a validação da metodologia desenvolvida, esta poderá ser aplicada em outros conjuntos de documentos em português, seja científico ou literário, por ser considerado um estudo genérico. Apresenta como trabalhos futuros, a aplicação da metodologia no acervo da Fundação Biblioteca Nacional e a utilização de um classificador para complementar a otimização do processo de indexação de documentos.

Abstract



This work is applied to the knowledge extraction of scientific and/or literary texts in Portuguese language through the contextual and statistical analysis. The purpose is to develop a Text Mining methodology, applying Clustering techniques in the digital thesis collection, available in the PUC-Rio University Library. This technique makes possible grouping texts in Portuguese, according to contents similarity, allowing the document distribution for users’ or research’s profiles. With the validation of the developed methodology, this could be applied in other set of documents in Portuguese, either scientific or literary, for being considered a generic study. As future work, it can be suggested the application of this methodology in the digital documents of National Library Foundation and the use of a classifier to complement the document indexing optimization process.

Print