Roberta Carneiro de Souza

Título

AMOSTRAGEM PARA GRANDES VOLUMES DE DADOS: UMA APLICAÇÃO EM REDES COMPLEXAS

Orientador(es)

Nelson Francisco Favilla Ebecken

Resumo

Este  trabalho  tem  como  objetivo  principal  implementar  e  avaliar  opções  de planos  amostrais  de  algoritmos  para  cálculo  de  centralidade  de  intermediação  - uma  medida  utilizada  para  identificar  vértices  importantes  e  influentes  -  em  redes complexas,  visando  melhorar  a  qualidade  das  estimativas.   A  avaliação  estatística da  qualidade  dessas  estimativas  será  feita  através  de  indicadores  propostos,  já utilizados  em  amostragem  mas  não  em  mineração  de  dados  em  redes  complexas. As  técnicas  utilizadas  de  forma  combinada  para  atingir  os  objetivos  e  propor  um novo algoritmo foram:  amostragem,  agrupamento (ou detecção de comunidades) e computação  paralela.   O  recurso  de  amostragem  vem  sendo  utilizado  amplamente como  ferramenta  de  redução  de  dimensionalidade  em  problemas  de  mineração  de dados para agilizar processos e diminuir custos com armazenagem de dados. As técnicas  de  agrupamento  para  detecção  de  comunidades  possuem  alta  correlação com  a  medida  que  se  deseja  estimar,  a  centralidade  de  intermediação.    Um  dos fatores  considerados  na  escolha  dos  métodos  empregados  na  implementação  dos algoritmos  foi  a  possibilidade  de  se  utilizar  computação  paralela  ou  distribuída. Após  revisão  da  literatura  e  avaliação  dos  resultados  dos  experimentos  realizados, conclui-se que o algoritmo proposto pelo presente estudo contribui para o estado da arte  da  utilização  de  amostragem  para  estimar  centralidade  de  intermediação  em grandes redes complexas, um desafio no cenário atual de big data, ao agregar várias técnicas que otimizam a extração de conhecimento de dados.  O algoritmo proposto, além  de  melhorar  a  qualidade  das  estimativas,  apresentou  redução  no  tempo  de processamento mantendo a escalabilidade

Abstract

The main objective of this work is to implement and to evaluate options of sampling plans of algorithms for calculation of betweenness centrality, a measure used to identify important and influential vertices in complex networks aiming to improve the quality of the estimates.   For  statistical evaluation of variability of  the estimates, indicators used in sampling, but not yet in data mining in complex networks, will be proposed. The techniques used in combination to reach the objectives and propose a new algorithm were: sampling, clustering (or community detection) and parallel computing.  The sampling feature has been widely used as  a tool to reduce dimensionality in data mining problems to streamline processes and reduce costs with data storage.  The techniques of grouping for the detection  of communities have a high correlation with the measure to be estimated, the betweenness centrality. One of the factors used in choosing the methods used in the implementation of the algorithms was the possibility of using parallel or distributed computing. After the review of the literature and evaluation of the results of the experiments carried out, it is concluded that the proposed algorithm contributes to the state of the art of the use of sampling to estimate betweenness centrality in large complex networks, a challenge in the current scenario of big data, by adding several techniques that optimize the extraction of data knowledge. The proposed algorithm, in addition to improving the quality of the estimates, presented a reduction in the processing time while keeping the scalability.

Download

 

 

Imprimir