Valeriana Gomes Roncero

Título

Classificação semi-supervisionada de textos em ambientes distribuídos

Orientador(es)

Nelson Francisco Favilla Ebecken
Myrian Christina de Aragão Costa

A classiﬁcação de textos supervisionada normalmente necessita de um número signiﬁcativo de documentos de treinamento para a indução de classiﬁcadores precisos. Entretanto, a rotulagem dos documentos é frequentemente realizada manualmente, o que torna esse processo demorado e caro. Por outro lado, documentos não rotulados estão largamente disponíveis. O aprendizado semi-supervisionado representa a junção do aprendizado supervisionado e não-supervisionado, e tem o potencial de reduzir a necessidade de documentos rotulados. O algoritmo de classiﬁcação Naïve Bayes é uma abordagem probabilística para a aprendizagem indutiva. Ele estima probabilidade a posteriori de que um documento pertença a uma determinada categoria. Quando os documentos estão rotulados, o aprendizado das probabilidades é simples, pois, estão são baseadas em frequências. Quando os documentos não são rotulados, o algoritmo EM permite determinar os rótulos faltantes mediante estimativas de máxima verossimilhança. O Portal Aîuri visa disponibilizar uma infraestrutura de computação geograﬁcamente distribuída para utilização acadêmica de serviços de grid. Nesta pesquisa é proposta a utilização de um algoritmo de aprendizado a partir de documentos rotulados e não rotulados baseado na combinação do algoritmo supervisionado Naïve Bayes com o algoritmo Expectation-Maximization (EM) em um ambiente de grid computacional através do Portal Aîuri.

Abstract

The supervised text classiﬁcation usually requires a signiﬁcant amount of training documents to improve the accuracy of the classiﬁers. However, documents are often hand-abeled, which makes this process time consuming and expensive. Moreover, unlabeled documents are widely available. The semi-supervised learning is the combination of supervised and unsupervised learning algorithms and, potentially, reduces the need of labeled documents. The Naïve Bayes classiﬁcation algorithm is a probabilistic approach to inductive learning. It estimates the a posteriori probability that a document belongs to a particular category. When documents are labeled, the probabilities of learning are simple, because they are based on frequencies. When the documents are not labeled, the Expectation Maximization (EM) algorithm estimates the missing labels using the maximum likelihood estimation. The Aîuri Portal provides a geographically distributed computational infrastructure for academic useof grid services. This research proposes the use of a learning algorithm from labeled and unlabeled documents based on the combination of the supervised Naïve Bayes algorithm with the EM algorithm in a grid computing environment through the Aîuri Portal.

Download

Imprimir

Valeriana Gomes Roncero

Título

Orientador(es)

Resumo

Abstract

Download