Leonardo Falcão Koblitz

Título


Ambiente de análise de sentimentos baseado em domínio

Orientador(es)


Nelson Francisco Favilla Ebecken

Resumo


Cada vez mais as pessoas colocam suas opiniões e sentimentos em diversos tipos de serviços disponíveis na Web. Sites de microblogging como o  twitter, redes sociais ou fóruns têm se tornado o meio comum para elas se expressarem.  Elas colocam de forma espontânea, gratuita e em tempo real, opiniões sobre os mais diferentes assuntos. A análise destes dados constitui uma fonte importante e rica para se entender e se antecipar às expectativas e frustrações das pessoas a respeito de um produto, um serviço ou mesmo sobre pessoas ou fatos. Entretanto, cada domínio ou serviço de Internet tem suas peculiaridades. Jargões específicos de um domínio, gírias ou mesmo características próprias dos serviços para as pessoas colocarem as suas opiniões diferem de maneira significativa, o que compromete a utilização de sistemas de aprendizado de máquina desenvolvidos anteriormente para outros domínios. Com isto em mente, foi proposta uma estratégia para permitir a análise de sentimentos baseada em domínio, a qual estabelece os passos para se montar rapidamente um ambiente de análise de sentimentos e conteúdo de acordo com o domínio sendo examinado. Esta estratégia contempla desde o processo de anotação do corpus, os passos necessários para a criação de anotações de acordo com o domínio, criação de léxicos semânticos e o desenvolvimento e validação dos classificadores.  Para testar esta estratégia foi desenvolvido o sistema JULGAR, cujo núcleo está baseado no ambiente computacional GATE utilizado para o processamento de linguagem natural.

Abstract


More and more people show their opinion and feelings at several available Web services. Microblogging sites, such as the twitter, social networks or forums have become the ordinary media for these people to express themselves.  In real time, they say spontaneously and at no cost what they think about different matters. These data analysis is an important resource to understand and to know in advance people's expectations and frustrations about a product, a service and even people or facts.  However, each Internet site or service has its own characteristics. Sites' specific jargons, slangs or even specific characteristics of services where persons express their opinions don't have a pattern, making difficult  the use of learning systems previously developed for other sites.  For this purpose a strategy was proposed a strategy that allows the analysis of
feelings based on site and that establishes steps to quickly create an environment for the analysis of feelings according to the site being examined.  This strategy comprises making notes on the corpus, the necessary steps for creating annotations according to the site, lexical semantic creation and the development and validation of the classifiers.
In order to test this strategy, it was developed the JULGAR system, whose core is based on the computational environment GATE, which is employed for the processing of natural language.

Print