Antonio Anddre Serpa da Silva

 

Título



Aîuri: Um Portal para Mineração de Textos Integrado a Grids Computacionais

Orientador(es)



Nelson Francisco Favilla Ebecken e Myrian Christina de Aragão Costa

Resumo



O sistema Aîuri é um ambiente acadêmico cooperativo de alto desempenho que tem utilidade no ensino e pesquisas nas áreas de inteligência computacional, análise, avaliação e visualização de dados, integrado a ambientes de grids computacionais. Um portal Web integrado a dois ambientes de grid computacional, foi desenvolvido para a utilização de algoritmos de mineração de textos. Os ambientes de grid utilizados são o Intragrid NACAD, administrado pelo Núcleo de Computação de Alto Desempenho (NACAD) da COPPE, que agrupa máquinas heterogêneas do laboratório em um grid com finalidade didática, e o E-Infraestructure Shared Between Europe and Latin America (EELA), que é uma infra-estrutura para o desenvolvimento e implantação de grids para uso científico, conectando a Europa e a América Latina. O portal Aîuri é composto por 3 módulos principais. O primeiro módulo realiza as atividades de autenticação e carregamento de arquivos dos usuários. O segundo módulo é o responsável pelas tarefas de pré-processamento de dados textuais. No terceiro módulo são implementados os já consagrados algoritmos para mineração de textos, os classificadores bayesiano e de ranqueamento linear. Neste módulo, são também disponibilizadas as respectivas métricas dos algoritmos para que possam servir de objeto de análise pelo pesquisador.

Abstract



The Aîuri web portal is a cooperative academic environment, that will be of great use in research as well as teaching in the fields of computational intelligence, analysis, evaluation and visualization of non-structured data, integrated to computational grid environments. A web portal, integrated to two distinct computational grid environments, was developed to be used as an interface for running text mining algorithms in a grid environment. The grid environments used are the Intragrid NACAD, deployed at the High Performance Computing Center (NACAD) at COPPE, that connects heterogeneous machines in a grid environment with academic purposes, and the E-Infrastructure Shared Between Europe and Latin America (EELA), which is an infrastructure for the development and deployment of grids for scientific use, connecting Europe and Latin America. The Aîuri portal is composed of three modules. The first one is responsible for user authentication and loading the user files. The second module is responsible for pre-processing of textual data. Finally, in the third module, two well-known text mining algorithms – bayesian and linear score classifiers – are implemented. Additionally, in this module the metric of both algorithms are available to be object of analysis by the researcher.

Print