Jorge da Cunha Morgado Júnior
Resumo
Este trabalho apresenta uma proposta metodológica para a análise de informações não-estruturadas contidas em questões de concursos públicos realizados no período de 2000 e 2006 no Brasil. Para realizar o estudo foram utilizadas as seguintes tarefas envolvidas no processo de mineração de textos: coleta de dados, préprocessamento textual, exploração dos dados, classificação, agrupamento e análise de links. Para a etapa de pré-processamento, desenvolveu-se um sistema específico para tratar documentos em português. No processamento dos textos buscou-se estabelecer conexões entre os registros, através da análise de links nos documentos, com o propósito de reconhecer os padrões de relações existentes nas questões.
Abstract
This work presents a methodology for the analysis of non-structured information contained on issues of procurement made in the period 2000 to 2006 in Brazil. To conduct the study was used the following tasks involved in text mining: data collection, pre-processing text, use data, classification, clustering and link analysis. For the preprocessing stage, it has developed a specific system to handle documents in Portuguese. In the processing of texts trying to establish connections between records, through the link analysis to documents in order to recognize the patterns of relationships in existing issues.