images/Logo/logo_50anos_novo1.jpg

Lilian Ayako Matsunaga

Título



Uma Metodologia de Categorização Automática de Textos Para a Distribuição dos Projetos de Lei às Comissões Permanentes da Câmara Legislativa do Distrito Federal

Orientador(es)



Nelson Francisco Favilla Ebecken

Resumo



Neste trabalho é proposta uma metodologia de categorização automática de textos para a obtenção de um modelo que indique de forma automática as comissões permanentes da Câmara Legislativa do Distrito Federal que devem apreciar cada um dos projetos de lei apresentados à Casa. Usando o algoritmo Support Vector Machines com várias formas de atribuição de pesos aos termos, foram estudadas as abordagens por dicionário global e local juntamente com seleção de termos e aumento de peso para os termos presentes nas ementas e para os relacionados às matérias de competência das comissões permanentes.  Duas novas formas de atribuição de pesos aos termos também foram propostas neste trabalho: TF_ABSL e TF_BNS. Elas incluem no cálculo dos pesos para os termos a importância desses para a discriminação das categorias, medidas pelas métricas abs-logito (ABSL) - proposta neste trabalho - e bi-normal separation (BNS).  Os resultados obtidos confirmaram a viabilidade prática da proposta, com as melhores soluções produzidas pelas duas formas de atribuição de pesos propostas, combinadas com seleção de termos e aumento de peso para alguns termos.

Abstract



This work presents an approach for text categorization and builds a computer system that automatically indicates the permanent committees at the Federal District Legislative Assembly that are adequate to examine the proposed law projects. Support vector machines algorithm was implemented with a number of term weighting methods using a global and local dictionary, along with term selection and increase of weights for important existing words and for words related to the domain of the permanent committee jurisdiction.  Two new term weighting methods were also considered in this work: TF_ABSL and TF_BNS. They include in the term weight calculations, the term importance to the discrimination of the categories, measured by abs-logit (ABSL) – proposed in this work - and bi-normal separation (BNS).  The results obtained have confirmed the performance of the proposed strategy, and the best solutions were produced by the two methods of term weighting suggested in this work, combined with term selection and increase of weight for some terms.

Imprimir