Fábio Roque da Silva Moreira

Título



Uso de Regras de Associação Fuzzy e Técnicas de Análise e Exploração Espacial na Mineração dos Dados Sócio-Ambientais do Projeto PIATAM, Amazônia Central

Orientador(es)



Alexandre Gonçalves Evsukoff e Fernando Pellon de Miranda

Resumo



O presente estudo propõe uma metodologia baseada em regras de associação fuzzy para aquisição de conhecimento, expresso através de regras linguísticas, das informações dos temas ictiofauna e limnologia do Projeto PIATAM. Foi desenvolvido na pesquisa um algoritmo em linguagem Python com capacidade de lidar com dados numéricos e categóricos, bem como de relacionar objetos com propriedades geográficas através de ferramentas de análise espacial. A metodologia incluiu as etapas de pré-processamento (seleção dos dados, limpeza, sumarização e transformação), mineração, visualização e avaliação. Na etapa de pré-processamento, os temas foram associados espacialmente segundo critérios de proximidade. Incorporou-se também análises de distância dos centros comunitários e da interseção em relação aos limites municipais. Na etapa de transformação, as variáveis foram particionadas em valores linguísticos. O algoritmo de mineração utiliza candidatos unidimensionais (valores lingüísticos) para gerar outros de dimensões maiores. O último passo consistiu na construção das regras de associação através da aplicação de operadores booleanos. As regras fortes foram espacializadas através da pertinência dos valores linguísticos. Foram realizados diferentes minerações: (i) Os dados do tema limnologia foram minerados em separado; (ii) as informações do tema ictiofauna foram mineradas também individualmente, porém generalizadas em três níveis hierárquicos (peixe total, habitat e espécie de peixes); (iii) foram minerados os dados de ambos os temas associados segundo critérios de proximidade espacial. O desempenho do processo de mineração foi satisfatório, visto que o número de regras consideradas coerentes superou as regras classificadas como indiferentes e incoerentes. A visualização geográfica dos valores linguísticos do antecedente e consequente à regra, através das suas pertinências, permitiu uma interpretação mais precisa da força da regra no espaço.

Abstract



The present study proposes a methodology based on fuzzy association rules for knowledge discovery, expressed through linguistic rules, of the information of the ichthyofauna and limnology themes of the PIATAM Project. An algorithm with the ability to deal with numerical and categorical data and to associate objects with geographical properties through spatial analysis tools was developed in Python language. The methodology included pre-processing (data selection, cleaning, summarizing and transformation), data mining, visualization and evaluation. In the pre-processing step, the themes were spatially associated according to criteria of proximity. Also were incorporated analyses of distance of the community centers and intersection regarding the municipal limits. In the stage of transformation stages, the variables were partitioned in linguistic values. The data mining algorithm uses one-dimensional candidates (linguistic values) to produce others of higher dimensions. The last step consisted of the construction of association rules through the application of Boolean operators. The strong rules were then geocoded through the membership of the linguistic values. Different data mining runs were carried out: (i) limnology data were mined separately; (ii) ichthyofauna data were mined also individually, however generalized within three hierarchical levels (total fish, habitat and fish species); (iii) data mining of both subjects was carried out according to criteria of proximity. The performance of the data mining process was satisfactory. The number of coherent rules surpassed the rules classified as indifferent and inconsistent. The geographical visualization of the linguistic values of the preceding and consequence terms of the rules, through their membership, allowed a more precise interpretation of the spatial strength of the rule.

Imprimir