Luiz Claudio Marini Silva

Título



Uma Análise dos Procedimentos de Mineração de Textos no SGBD Oracle 10G

Orientador(es)



Nelson Francisco Favilla Ebecken

Resumo



A extração de conhecimento em bases de dados textuais se tornou uma prática estratégica na esfera empresarial atualmente, uma vez que mais de 80% dos dados produzidos pelos negócios se encontra no formato textual. Essa prática apóia processos de tomada de decisão nas empresas líderes nesse novo milênio, resultando em importantes vantagens competitivas na atual economia globalizada. O presente trabalho apresenta um estudo aprofundado do ambiente de mineração de textos do Oracle 10G, um Sistema Gerenciador de Banco de Dados (SGBD) muito utilizado no mercado. As abordagens envolvem basicamente tarefas de Classificação, Clusterização e Visualização dos dados textuais. Como o Oracle é uma ferramenta que, além de armazenar os dados apresenta as abordagens de tratamento deles, o trabalho na etapa de pré-processamento é largamente minimizado, o que confere bastante agilidade ao processo. Para validar os resultados obtidos com o Oracle, o programa Poly Analyst foi\ utilizado para gerar resultados para comparação.

Abstract



The knowledge extraction in textual data became a strategic practice in the business world nowadays, since more than 80% of data produced by businesses are in the textual  format. That practice supports decision making processes in the leaders companies on new millennium, resulting in important competitive advantages in the current global economy.  This work presents a detailed study of the text mining environment Oracle 10G, a Managed System of Database very used at the market. The approaches involve tasks of Classification, Clustering and Presenting of the textual data.  As Oracle is a tool that stores data and it also includes data treatment routines, the effort in the initial processing stage is minimized enormously, what aggregate quite agility to the process.  To validate the results obtained with Oracle, the program Poly Analyst was used to generate results for comparison.

Imprimir