Marcio Succar Moreira
Resumo
O recebimento de mensagens não solicitadas (Spams) é um problema conhecido de todos os usuários da Internet e gera um custo anual de milhares de dólares para empresas, governos, provedores e usuários. Mais importante do que não receber os Spams é garantir que uma mensagem autêntica não será classificada como Spam (falso positivo) e será entregue ao usuário. Ao contrário dos Spams, que podem ser facilmente apagados quando recebidos, as mensagens autênticas não entregues podem gerar prejuízos maiores, pois em alguns casos, são vitais para as partes envolvidas e, quando não são entregues, podem afetar uma relação comercial, um tratado uma ação judicial ou até uma relação afetiva. O objetivo deste estudo é avaliar a metodologia de mineração de textos na detecção de spams utilizando duas ferramentas comerciais, os dados utilizados na classificação serão exatamente os mesmos que foram recebidos nas contas de e-mails. O único tratamento aplicado às mensagens será a aplicação das técnicas que fazem parte do pré-processamento dos dados na mineração de textos.
Abstract
The receipt of unsolicited messages (Spam) is a known problem for all Internet users and generates an annual cost of thousands of dollars to companies, governments, providers and users. Besides that, it's even more important to ensure that an authentic message will not be classified as Spam (false positive) and will be delivered to the user. Unlike Spam, which can easily be erased when received, authentic undelivered messages may generate greater losses because in some cases are vital for the parties involved, and when not delivered they can affect a business relationship, a treaty, a lawsuit or even a loving relationship. The aim of this study is to evaluate the text mining methodology in spams detecting using two commercial tools, the data used in the classification will be exactly the same that were received in the e-mail accounts. The only treatment applied to the messages will be the application of the data mining pre-processing techniques.