Bruno Vilela Oliveira

Título


BIO-SUMM – Uma Estratégia de Redução de Complexidade de Informação não Estruturada


Orientador(es)


Nelson Francisco Favilla Ebecken


Resumo


A crescente quantidade de textos e de informação multimídia disponíveis online nos últimos anos tem motivado várias pesquisas relacionadas a métodos de sumarização automática. A sumarização automática de textos é o processo no qual um sistema computacional simula a habilidade humana de produzir uma versão resumida de documentos de textos, com pouca ou nenhuma intervenção humana no processo. A versão resumida gerada (sumário) deve preservar o conteúdo mais relevante da fonte textual de acordo com os objetivos da utilização do sumário.
O uso de sumários é tão diverso quanto importante. Eles estão presentes na rotina de usuários da web, em fontes de informações online, em aplicações para dispositivos móveis e podem ser necessários em sistemas de gestão de conhecimentos corporativos. A proposta do presente trabalho constitui a formalização de uma nova metodologia, chamada Bio-Summ, que utiliza uma variação do algoritmo bioinspirado Particle Swarm Clustering (PSC) em combinação com outras estratégias para realizar a tarefa de sumarização automática. A efetividade da Bio-Summ é avaliada em um estudo de caso envolvendo a sumarização de 100 textos em português. O desempenho da metodologia proposta é calculado automaticamente por um sistema de avaliação da sumarização amplamente usado e comparado ao de outras cinco abordagens de sumarização.


Abstract


The growing amounts of available online text and multimedia information in recent years have motivated the intensive research on automatic summarization methods. Automatic text summarization is the process where computer systems simulate the main features of humans to produce a condensed version of text documents with little or even no human intervention in the process. The abridged information that is generated (i.e., the summary) must also preserve the most relevant content of the text source according to the utilization purposes of the summary.
The use of summaries is as diverse as it is important; they are present in the routines of web users, in online information sources, in applications for mobile devices, as well as in corporate knowledge management systems. The approach proposed in this work consists of the formalization of a new methodology, called the Bio-Summ, which is based on the use of a modified version of the bio inspired Particle Swarm Clustering (PSC) algorithm in combination with other strategies to perform automatic text summarization. The effectiveness of the Bio-Summ is evaluated in a case study involving the summarization of 100 texts written in Brazilian Portuguese. The performance measures of the Bio-Summ are calculated automatically by a widely used summarization evaluation software system and are compared to five other summarization approaches.


Download



{mosimage}

Imprimir