Descoberta de Conhecimento em Base de Dados sobre Avistamentos de Peixes-boi Marinho (Trichechus manatus manatus) no Estuário dos Rios Timonha e Ubatuba (PI/CE)

Aluno: Jailson Nunes Leocadio
Dissertação de Mestrado

Resumo: O peixe-boi marinho (Trichechus manatus manatus) é o mamífero aquático mais ameaçado de extinção no Brasil e sua distribuição ao longo da costa marinha tem diminuído com o passar dos anos. Para o desenvolvimento de propostas de preservação da espécie e de seu habitat é preciso conhecer como estes animais interagem com os recursos naturais disponíveis e quais as características ambientais que tornam possível a sua sobrevivência. Métodos estatísticos frequentemente são usados para este propósito, porém não se adequam totalmente à necessidade, tendo em vista que os ecossistemas apresentam relações não-lineares entre seus componentes. Dada a existência de uma base de dados coletados sobre a presença de peixe-boi marinho no estuário dos rios Timonha e Ubatuba (PI/CE), foi proposto o uso do processo de Descoberta de Conhecimento em Bases de Dados (DCBD) para a obtenção de um classificador para a presença da espécie e para a região de aparecimento dos indivíduos, além da descoberta de novos padrões que possam auxiliar no entendimento da ecologia do mamífero aquático na região. A metodologia utilizada engloba o pré-processamento, transformação, mineração dos dados e avaliação/interpretação dos padrões obtidos. No pré-processamento foram retirados ruídos e na fase de transformação os dados foram modificados para permitir sua exploração em diferentes aspectos. Na fase de mineração dos dados foram empregados classificadores dos paradigmas simbólico (J48, Random Forest e Random Tree), estatístico (Naive Bayes e Tree Augmented Naive Bayes) e conexionista (Multi Layer Perceptron e Radial Basis Function). Também foram gerados clusters com o algoritmo K-means e executado a rotulação automática destes grupos gerados. Os resultados obtidos foram avaliados de acordo com um conjunto de métricas selecionadas (acurácia, índice Kappa, precisão, recall, f-measure e área sob a curva ROC) para que se pudesse verificar a qualidade dos modelos gerados, selecionar os melhores resultados e descobrir informações importantes sobre os atributos estudados. O algoritmo Random Forest se destacou na classificação de presença da espécie e obteve uma acurácia de 99,7%. O modelo MLP foi o melhor classificador para a região de aparecimento, ele obteve uma acurácia de 96,1%. A interpretação dos padrões obtidos foi apoiada pela literatura especializada e os resultados estão de acordo com o que é mostrado pelos levantamentos de distribuição e ocorrências do mamífero no país.

Rotulação de grupos utilizando conjuntos fuzzy

Aluno: Vilmar Pereira Ribeiro Filho
Dissertação de Mestrado

Resumo: O agrupamento (clustering) de dados tem sido considerado como um dos tópicos mais relevantes dentre aqueles existentes na área de aprendizagem de máquina não supervisionada. Embora o desenvolvimento e aprimoramento de algoritmos que tratam esse problema tenham sido o principal foco de muitos pesquisadores, a compreensão dos grupos (clusters) é tão importante quanto sua formação. Definir um grupo pode ajudar na sua compreensão, por exemplo, ao se encontrar uma definição para grupos consumidores é possível saber quais as principais diferenças entre os grupos e tomar decisões direcionadas para cada um deles. Frente ao problema de encontrar definições também chamadas de rótulos, capazes de identificar cada grupo de forma fácil, este trabalho descreve um modelo que elabora rótulos utilizando a teoria de conjuntos fuzzy para encontrar características relevantes nos elementos de cada grupo e modelar faixas de valores que identificam os grupos de forma única. Para avaliar o desempenho, o modelo produziu rótulos para grupos de três bases de dados e foi submetido a uma análise comparativa com um modelo de rotulação. Os rótulos produzidos conseguiram representar um grande número de elementos, apresentando assim um bom resultado. Na comparação, o modelo conseguiu produzir rótulos mais fáceis de serem compreendidos. Os experimentos realizados demonstram que o modelo proposto é capaz de construir rótulos para a identificação dos grupos, melhorando assim a compreensão dos grupos fornecidos.

Download do trabalho.

Método Semissupervisionado de Rotulação e Classificação Utilizando Agrupamento por Sementes e Classificadores

Aluno: Bruno Vicente Alves de Lima
Dissertação de Mestrado

Resumo: Na tarefa de classificação utilizando algoritmos de aprendizado de máquina, considera-se a existência de uma base de dados chamada conjunto de treinamento. Esse conjunto possui exemplos que são rotulados(pré-classificados) e utilizados no treinamento do classificador. Deve ter um total de exemplos significativo e equilibrado para que, após o treinamento, o classificador tenha um desempenho satisfatório. Porém, na maioria dos casos reais, obter esse conjunto de treinamento com a quantidade de exemplos suficientes para induzir um classificador no treinamento pode ser oneroso, pois é necessário que seja realizada uma rotulação dos dados por um especialista no problema em questão. Exemplos não-rotulados são mais fáceis de serem coletados em comparação aos que possuem rótulos. A literatura mostra o interesse da comunidade científica em uma nova abordagem de aprendizado chamada de semissupervisionada. Este tipo de aprendizado trabalha em um cenário em que existe um conjunto de dados rotulados, insuficiente para treinar um classificador, juntamente com um outro conjunto com dados não-rotulados, também, disponível no treinamento. O objetivo do trabalho é propor um método que visa rotular dados a partir de um pequeno conjunto rotulado. Esse método combina um classificador e um agrupador para realizar a tarefa de classificação de forma simples em relação à outros métodos encontrados na literatura. Foram realizados experimentos utilizando 5 bases de dados e os resultados comparados com os algoritmos co-training e k-means ki, que são outros algoritmos semissupervisionados que possui o mesmo propósito.

Download do trabalho.

Rotulação Automática de Grupos com Aprendizagem de Máquina Supervisionada

Aluno:Lucas Araújo Lopes
Dissertação de Mestrado

Resumo: O problema de agrupamento (clustering) tem sido considerado como um dos problemas mais relevantes dentre aqueles existentes na área de pesquisa de aprendizagem não-supervisionada (subárea de Aprendizagem de Máquina). Embora o desenvolvimento e aprimoramento de algoritmos que solucionam esse problema tenha sido o principal foco de muitos pesquisadores o objetivo inicial se manteve obscuro: a compreensão dos grupos formados. Tão importante quanto a identificação dos grupos (clusters) é sua compreensão e definição. Uma boa definição de um cluster representa um entendimento significativo e pode ajudar o especialista ao estudar ou interpretar dados. Frente ao problema de compreender clusters – isto é, de encontrar uma definição ou em outras palavras, um rótulo – este trabalho apresenta uma definição para esse problema, denominado problema de rotulação, além de uma solução baseada em técnicas com aprendizagem supervisionada, não-supervisionada e um modelo de discretização. Dessa forma, o problema é tratado desde sua concepção: o agrupamento de dados. Para isso, um método com aprendizagem não-supervisionada é aplicado ao problema de clustering e então um algoritmo com aprendizagem supervisionada irá detectar quais atributos são relevantes para definir um dado cluster. Adicionalmente, algumas estratégias são utilizadas para formar uma metodologia que apresenta em sua totalidade um rótulo (baseado em atributos e valores) para cada grupo fornecido. Finalmente, essa metodologia é aplicada em quatro bases de dados distintas apresentando bons resultados com uma média acima de 93.5% dos elementos rotulados corretamente.

Download do trabalho.

Rotulação Automática de Grupos Baseada em Algoritmos Supervisionados

Vigência: 2017-2018

Resumo: Frente ao problema de compreender clusters – isto é, de encontrar uma definição ou em outras palavras, um rótulo – este projeto propõe uma definição para esse problema, denominado problema de rotulação, além de uma solução baseada em técnicas com aprendizagem supervisionada, não-supervisionada e um modelo de discretização. Dessa forma, o problema é tratado desde sua concepção: o agrupamento de dados. Para isso, um método com aprendizagem não-supervisionada é aplicado ao problema de clustering e então um algoritmo com aprendizagem supervisionada irá detectar quais atributos são relevantes para definir um dado cluster.
Finalmente, o objetivo desse projeto consiste em apresentar uma abordagem, baseados em algoritmos de aprendizagem de máquina supervisionados, capaz de rotular clusters a fim de esclarecer, orientar e ajudar um especialista. Os rótulos gerados devem ser capazes de identificar as principais características – bem como seus conjuntos de valores – responsáveis pela definição de um determinado cluster.