Descoberta de Conhecimento em Base de Dados sobre Avistamentos de Peixes-boi Marinho (Trichechus manatus manatus) no Estuário dos Rios Timonha e Ubatuba (PI/CE)

Aluno: Jailson Nunes Leocadio
Dissertação de Mestrado

Resumo: O peixe-boi marinho (Trichechus manatus manatus) é o mamífero aquático mais ameaçado de extinção no Brasil e sua distribuição ao longo da costa marinha tem diminuído com o passar dos anos. Para o desenvolvimento de propostas de preservação da espécie e de seu habitat é preciso conhecer como estes animais interagem com os recursos naturais disponíveis e quais as características ambientais que tornam possível a sua sobrevivência. Métodos estatísticos frequentemente são usados para este propósito, porém não se adequam totalmente à necessidade, tendo em vista que os ecossistemas apresentam relações não-lineares entre seus componentes. Dada a existência de uma base de dados coletados sobre a presença de peixe-boi marinho no estuário dos rios Timonha e Ubatuba (PI/CE), foi proposto o uso do processo de Descoberta de Conhecimento em Bases de Dados (DCBD) para a obtenção de um classificador para a presença da espécie e para a região de aparecimento dos indivíduos, além da descoberta de novos padrões que possam auxiliar no entendimento da ecologia do mamífero aquático na região. A metodologia utilizada engloba o pré-processamento, transformação, mineração dos dados e avaliação/interpretação dos padrões obtidos. No pré-processamento foram retirados ruídos e na fase de transformação os dados foram modificados para permitir sua exploração em diferentes aspectos. Na fase de mineração dos dados foram empregados classificadores dos paradigmas simbólico (J48, Random Forest e Random Tree), estatístico (Naive Bayes e Tree Augmented Naive Bayes) e conexionista (Multi Layer Perceptron e Radial Basis Function). Também foram gerados clusters com o algoritmo K-means e executado a rotulação automática destes grupos gerados. Os resultados obtidos foram avaliados de acordo com um conjunto de métricas selecionadas (acurácia, índice Kappa, precisão, recall, f-measure e área sob a curva ROC) para que se pudesse verificar a qualidade dos modelos gerados, selecionar os melhores resultados e descobrir informações importantes sobre os atributos estudados. O algoritmo Random Forest se destacou na classificação de presença da espécie e obteve uma acurácia de 99,7%. O modelo MLP foi o melhor classificador para a região de aparecimento, ele obteve uma acurácia de 96,1%. A interpretação dos padrões obtidos foi apoiada pela literatura especializada e os resultados estão de acordo com o que é mostrado pelos levantamentos de distribuição e ocorrências do mamífero no país.