Valeriana Gomes Roncero

Título


Classificação semi-supervisionada de textos em ambientes distribuídos

Orientador(es)


Nelson Francisco Favilla Ebecken
Myrian Christina de Aragão Costa

Resumo


A classificação de textos supervisionada normalmente necessita de um número significativo de documentos de treinamento para a indução de classificadores precisos. Entretanto, a rotulagem dos documentos é frequentemente realizada manualmente, o que torna esse processo demorado e caro. Por outro lado, documentos não rotulados estão largamente disponíveis. O aprendizado semi-supervisionado representa a junção do aprendizado supervisionado e não-supervisionado, e tem o potencial de reduzir a necessidade de documentos rotulados. O algoritmo de classificação Naïve Bayes é uma abordagem probabilística para a aprendizagem indutiva. Ele estima probabilidade a posteriori de que um documento pertença a uma determinada categoria. Quando os documentos estão rotulados, o aprendizado das probabilidades é simples, pois, estão são baseadas em frequências. Quando os documentos não são rotulados, o algoritmo EM permite determinar os rótulos faltantes mediante estimativas de máxima verossimilhança. O Portal Aîuri visa disponibilizar uma infraestrutura de computação geograficamente distribuída para utilização acadêmica de serviços de grid. Nesta pesquisa é proposta a utilização de um algoritmo de aprendizado a partir de documentos rotulados e não rotulados baseado na combinação do algoritmo supervisionado Naïve Bayes com o algoritmo Expectation-Maximization (EM) em um ambiente de grid computacional através do Portal Aîuri.

Abstract


The supervised text classification usually requires a significant amount of training documents to improve the accuracy of the classifiers. However, documents are often hand-abeled, which makes this process time consuming and expensive. Moreover, unlabeled documents are widely available. The semi-supervised learning is the combination of supervised and unsupervised learning algorithms and, potentially, reduces the need of labeled documents. The Naïve Bayes classification algorithm is a probabilistic approach to inductive learning. It estimates the a posteriori probability that a document belongs to a particular category. When documents are labeled, the probabilities of learning are simple, because they are based on frequencies. When the documents are not labeled, the Expectation Maximization (EM) algorithm estimates the missing labels using the maximum likelihood estimation. The Aîuri Portal provides a geographically distributed computational infrastructure for academic useof grid services. This research proposes the use of a learning algorithm from labeled and unlabeled documents based on the combination of the supervised Naïve Bayes algorithm with the EM algorithm in a grid computing environment through the Aîuri Portal.

Imprimir