images/Logo/logo_50anos_novo1.jpg

José Kleiton Da Silva

Título

Sincronização em Ambiente Colaborativo Hadoop


Orientador(es)

Beatriz de Souza Leite Pires de Lima

Resumo

As instituições de pesquisas, cada vez mais empenhadas em resolver problemas que são de interesse comum da humanidade, possuem necessidades de colaboração de recursos computacionais que trabalham com processamento intensivo de dados para construção de inúmeros modelos complexos e casos de alta dimensionalidade. Para que haja processamento colaborativo, é necessário a sincronização dos dados nos ambientes de Big Data, sendo possível a execução de tarefas em instituições, onde os dados estejam disponíveis. O objetivo deste estudo é avaliar a sincronização de dados dos ambientes de Big Data entre instituições, através do protocolo GridFTP com armazenamento no sistema de arquivo distribuído, o HDFS. O cenário de sincronização envolve uma grande quantidade de arquivos pequenos. A conexão entre as instituições é um link de internet com baixa velocidade e alta latência. Além dos aspectos de desempenho, também há uma preocupação com a segurança dos ambientes envolvidos durante a sincronização. Uma análise comparativa das formas de escrita no sistema de arquivo HDFS, mostra a efetividade desta abordagem.


Abstract

Research institutions increasingly committed to resolve issues that are of common concern of humankind, have computer resources collaboration needs working with intensive data processing for construction of complex models and numerous cases of high dimensionality. To have collaborative processing, data synchronization is necessary in Big Data environments, making it possible to perform tasks in institutions where the data is available. The objective of this study is to evaluate data synchronization of Big Data environments between institutions through GridFTP protocol with storage in the distributed file system, HDFS. The synchronization scenario involves a lot of small files. The connection between the institutions is an internet link with low speed and high latency. Besides to the performance aspects, there is also a concern with the security of the environments involved during the synchronization. A comparative analysis of forms of writing in HDFS file system, shows the effectiveness of this approach.


Save

Imprimir