Felipe Ramos de Oliveira

Título

DISCURSO DE ÓDIO EM REDES SOCIAIS: UMA ABORDAGEM AUTOMATIZADA PARA IDENTIFICAÇÃO EM CONTEÚDO EM PORTUGUÊS

Orientador(es)

Nelson Francisco Favilla Ebecken

 

Resumo

As redes sociais desempenham um papel fundamental como meios de interação humana na era contemporânea, oferecendo plataformas para comunicação e expressão. Contudo, o aumento do discurso de ódio nessas plataformas representa riscos significativos para indivíduos e comunidades. Detectar e lidar com o discurso de ódio é particularmente desafiador em línguas como o português, devido não apenas ao seu vocabulário rico, gramática complexa e variações regionais, mas também à escassez de conjuntos de dados anotados para esse propósito. Com base nisso, esta tese apresenta o maior conjunto de dados anotados em português para detecção automática de discurso de ódio. A criação deste corpus é acompanhada por uma extensa revisão bibliográfica que inclui diferentes definições de discurso de ódio, disponibilidade de dados e análises das particularidades da propagação de conteúdo hostil online no Brasil, bem como modelos de linguagem. Para avaliar a viabilidade do conjunto de dados, foram utilizados modelos com arquiteturas representativas do estado da arte na literatura, incluindo testes que avaliam o uso de BERT e GPT-2.

 

 

Abstract

Social media platforms play a pivotal role as means of human interaction in the contemporary era, providing platforms for communication and expression. However, the increasing prevalence of hate speech on these platforms poses significant risks to individuals and communities. Detecting and addressing hate speech is particularly challenging in languages like Portuguese due not only to its rich vocabulary, complex grammar, and regional variations but also to the scarcity of annotated datasets for this purpose. Based on this, this thesis presents the largest annotated dataset in Portuguese for automatic hate speech detection. The creation of this corpus is accompanied by an extensive literature review containing different definitions of hate speech, data availability, analyses of the peculiarities of hostile content propagation online in Brazil, and language model architectures. To assess the viability of the dataset, models with architectures representing the state of the art in the literature were used, with tests evaluating the use of BERT and GPT-2.



 

Imprimir