Rômulo Mendes Figueiredo
Resumo
O objetivo desta dissertação foi avaliar a adoção de soluções computacionais advindas do processamento intensivo de dados distribuídos e de técnicas de aprendizado de máquina no que se refere à detecção de intrusos em redes de computadores com alto tráfego de dados. Os testes realizados utilizaram o Hadoop e o algoritmo Random Forest disponível na biblioteca Mahout e no Weka. As bibliotecas foram avaliadas com conjuntos de dados obtidos de monitoramento de redes de computadores, de benchmark e reais, com um grande volume de registros. Nos testes realizados, o Mahout apresentou melhor desempenho para a construção do modelo de dados e maior qualidade de detecção. A utilização da abordagem MapReduce em ambiente Mahout/Hadoop conseguiu processar mais de cinco milhões de eventos de rede reais em menos de um minuto.
Palavras-chave: Detecção de intrusos. Mahout. Hadoop. Aprendizado de máquina.
Abstract
The purpose of this thesis was to evaluate the adoption of solutions resulting from the data-intensive computing and machine learning techniques to the network intrusion detection with high data traffic. The tests have used Hadoop and the Random Forest algorithm available in Mahout library and Weka. The libraries were evaluated with data sets obtained from monitoring networks of computers, benchmark and real, with a large volume of records. Mahout was better program than Weka for construct the data model and for detection. The use of MapReduce approach in Mahout/Hadoop environment was able to process more than five million network events in less than a minute.
Keywords: Intrusion Detection. Mahout. Hadoop. Machine learning.