Eduardo Soares de Paiva

Título

CLASSIFICAÇÃO DE DENÚNCIAS: UTILIZAÇÃO DE PROCESSAMENTO DE LINGUAGEM NATURAL PARA APRIMORAR ATIVIDADES DE OUVIDORIA

 

Orientador(es)

Nelson Francisco Favilla Ebecken

Resumo

No Brasil, os cidadãos podem fazer denúncias sobre irregularidades na Admi-nistração Pública. Porém, para que essas denúncias sejam apuradas, elas precisam passar por uma triagem, que verifica se elas reúnem os requisitos mínimos para a apuração. Esse é um processo demorado, que precisa de automação. No entanto, essa triagem utiliza informações que não estão nos textos. Atualmente, os trabalhos que tratam de classificação textual não abordam a utilização de fontes de dados externas para a classificação. Dessa forma, essa pesquisa propõe e avalia diferentes soluções para esse problema. Sendo assim, nosso objetivo é desenvolver um modelo de classificação textual que prevê se uma denúncia deve ser classificada como apta ou não, a partir do seu conteúdo. Para isso, avaliamos diferentes arquiteturas de rede, a fim de identificar a mais apropriada para o problema de classificação textual em questão. Também propomos dois métodos de sumarização de denúncias, a fim de verificar se os textos sumarizados traziam ganhos para o processo de classifica-ção. Uma metodologia de extração de variáveis, a partir do texto das denúncias, também foi proposta. Essa metodologia utilizava as variáveis extraídas para buscar outras informações em bases de dados externas. Por fim, o modelo proposto era composto por outros dois modelos: um que utilizava os dados textuais e a arquite-tura BERT, e outro que utilizava as variáveis estruturadas, extraídas dos textos e de bases de dados externas, e o algoritmo lightGBM. Esse modelo já está em produção, fazendo a classificação de forma automática da parte das denúncias recebidas pelo Governo Federal. Sendo assim, o modelo já está trazendo benefícios para o processo de apuração de denúncias, e consequentemente para a sociedade como um todo.

 

Abstract

In Brazil, citizens can report irregularities in public administration. However, for these complaints to be investigated, they need to be triaged. This screening checks if the complaints are consistent and have the minimum requirements to proceed with the investigation process. This is a time-consuming process that needs automation.
However, this screening uses other information that is not present in the texts.
Currently, papers about textual classification do not address the use of external data sources to carry out the classification. Thus, this research aims to propose and evaluate different solutions to this problem. Therefore, our objective is to develop a textual classification model to predict whether a complaint should be classified as able or not able, based on the content of the complaints and their attachments. For this, we evaluated different network architectures to identify the most appropriate one for the textual classification problem in question. We also propose two methods of summarizing complaints, to verify if the summarized texts improved the classification process. A methodology for extracting variables from the text of the complaint was also proposed. This methodology used the extracted variables to search for other information in external databases. Finally, the proposed classification model was composed of two other models: one using textual data and the BERT architecture, and another based on structured variables, extracted from texts and external databases, and the lightGBM algorithm. The proposed model is already in production, automatically classifying part of the complaints received by the federal government. Therefore, the model is already bringing benefits to the process of invastigating complaints, and consequently to society.

 

Print