Carlos Augusto Sicsú Ayres do Nascimento
Resumo
Esta tese tem por objetivo desenvolver uma metodologia para automatizar o processo de busca, armazenamento e classificação de publicações científicas disponíveis na Internet, contribuindo para automatizar e facilitar a busca por documentos correlatos, além de propor um índice de aproximação estatística (IAE) para a reclassificação dos documentos reorganizando a lista de relevância produzida pela classificação por KNN. A metodologia proposta baseia-se em métodos de mineração de textos e contribui com as pesquisas voltadas a área de mineração de dados na Internet. A metodologia foi desenvolvida em três módulos distintos e sua estrutura modular, permite a distribuição de processos em forma concorrente e/ou paralela para aumento do desempenho do processamento. Os resultados do estudo de caso são comentados para avaliar o desempenho da metodologia. Algumas conclusões e estudos futuros são apresentados.
Abstract
This thesis seeks the development of automated method to search, sort and store scientific publications available in the Internet. This automated method will contribute to facilitate the search of associated documents. It will also propose a Statistic Approximation Index (SAI) that will reprioritize the relevance list produced by the KNN categorization. The proposed process is based on data mining methodology, and it will contribute to Internet data mining research. It includes three distinct modules allowing the distribution of process sequentially or in parallel, which will increase efficiency. The results of the case study are discussed to evaluate the performance of the methodology. Some conclusions and future studies are presented.