Antonio Anddre Serpa da Silva

Título

Net-Y: Uma Abordagem Para Detecção De Atividades Suspeitas Em Redes Sociais


Orientador(es)

Nelson Francisco Favilla Ebecken


Resumo

A contextualização do Brasil como cenário de grandes eventos esportivos mundiais e políticos, fizeram com que surgissem reais preocupações quanto à segurança dos mesmos. Apesar do Brasil nunca ter sofrido um ataque terrorista por grupos estrangeiros, estes eventos, sejam esportivos ou políticos, demandam uma busca contínua por informações que possam servir como subsídios para a geração de ações para antecipação a eventuais perturbações sociais. De maneira a contribuir com todo o aparato tecnológico dedicado a estes eventos, nesta tese é proposto o sistema NET-Y, que é uma metodologia, eficiente e configurável a situações específicas, que permite a realização de mineração de textos advindos de redes sociais, associado à análise de sentimentos, para a detecção de atividades suspeitas. O sistema utiliza como classificador de textos o algoritmo Naive Bayes, associando-o a um algoritmo para extração de palavras-chave, para otimização de termos para treinamento, com intervenção mínima de especialistas. Um algoritmo para seleção automática de classificadores flexibiliza a etapa de geração dos modelos de classificação. Os textos para formação dos classificadores são coletados por crawlers na internet ou podem ser fornecidos ao sistema, separadamente. Um crawler específico para o Facebook, faz as tarefas de busca de posts e comments de perfis de usuários (“alvos”), os quais, posteriormente, passam por um processo de correção ortográfica e são submetidos a um algoritmo de análise de sentimentos. Finalmente, estes textos passam pelo classificador, de maneira a garantir ao especialista, o contexto semântico dos documentos selecionados pelo sistema, sugeridos como suspeitos, a serem posteriormente analisados.


Abstract

Since Brazil is the site of large global sport and political events, safety has become a real issue in the country. Even though Brazil is not a target for terrorist groups, these events demand a continuous search for information that may be used to antecipate actions to deal with a possible threat. In order to provide technological means to deal with the safety issues of those events, in this thesis is proposed the NET-Y system, which is an efficient and customizable methodology that can be set up to specific situations, which allows the use of text mining techniques on social networks, associated with the sentiment analysis to detect suspicious activity. The system uses the Naive Bayes algorithm as text classifier, associated to an algorithm for extraction of keywords, used as term optimization for training, with minimum human intervention. An algorithm for automatic selection of classifiers replaces the generation stage of classification models. The texts used as the training set of the classifiers were collected by means internet crawlers, but they can be supplied to the system by other means. A specific crawler for Facebook, makes the tasks of searching for posts and comments from user profiles (“targets”), which subsequently undergo a process of spellchecking and are submitted to a sentiment analysis algorithm. Finally, those texts are processed by the classifier, returning the semantic context of the documents that were considered suspects, this information is to be analyzed by a human expert to take a final d ecision.


Print