Descoberta de Conhecimento através de Métodos de Aprendizagem de Máquina Simbólicos aplicados ao Ensino a Distância da Universidade Federal do Piauí

Aluna: Aline Montenegro Leal Silva
Dissertação de Mestrado

Resumo: Os cursos superiores na modalidade a distância tiveram um grande crescimento quantitativo na última década. Frente a esse crescimento, surge a preocupação com a qualidade do ensino e consequentemente com a performance acadêmica dos alunos. Com o intuito de identificar os perfis dos estudantes dessa modalidade educacional, especialmente dos cursos de Licenciatura em Computação, Sistemas de Informação e História, o presente trabalho propõe um processo de descoberta de conhecimento através de métodos de Aprendizagem de Máquina (AM) supervisionados aplicados ao ensino superior a distância, mais especificamente à base de dados do Sistema Integrado de Gestão de Atividades Acadêmicas (SIGAA) da Universidade Federal do Piauí (UFPI), cujos registros foram coletados nas duas últimas entradas do vestibular da Universidade Aberta do Brasil, as quais ocorreram em meados de 2014 e no início de 2017, respectivamente. Neste processo de descoberta de conhecimento, realizou-se a identificação de perfis a partir de uma correlação entre o Índice de Rendimento Acadêmico (IRA) e os aspectos sociais desses alunos. Foram utilizados três algoritmos de Aprendizagem de Máquina supervisionados com o paradigma simbólico: J48, RandomTree e SimpleCart. Observou-se que o J48 obteve a melhor performance dentre os algoritmos aplicados, exibindo regras de produção bastante concisas que melhor representam a correlação do IRA com os demais atributos. Os perfis descobertos tendem a auxiliar os gestores do sistema de educação a distância na tomada de decisões em relação a melhorias no processo de ensino-aprendizagem já que, através da mineração de dados, teve-se uma ideia do desempenho do aluno, ao mostrar que a deficiência acadêmica possui correlações com aspectos sociais. A partir dessas informações é possível definir-se estratégias diferenciadas em relação a esses alunos.

Download do Trabalho.

Rotulação Automática de Clusters Baseados em Análise de Filogenias

Aluno: Francisco Neto Carvalho de Araújo
Dissertação de Mestrado

Resumo: O agrupamento (clusterização) é uma das principais técnicas de reconhecimento de padrões. Essa técnica consiste em identificar grupos (clusters) de elementos em um determinado con- junto de dados, levando em consideração métricas que permitam determinar a semelhança entre eles. Os elementos presentes nesses conjuntos de dados (data sets) frequentemente são descritos por meio de atributos, os quais podem assumir valores de diversos tipos, exigindo métodos eficientes na tarefa de detectar correlações entre dados de tipos complexos (ou mistos). No entanto, o processo de clusterização não fornece informações claras que permitam inferir as características de cada cluster formado, ou seja, o resultado do processo de clusterização não permite que os clusters tenham seu significado facilmente compreendido. A rotulação de dados visa identificar essas características e permitir então que se tenha a plena compreensão dos clusters resultantes. Neste trabalho propõe-se a utilização em conjunto de métodos de Aprendizagem de Máquina não supervisionada e supervisionada para as tarefas de agrupamento e rotulação de dados, respectivamente. Os algoritmos DAMICORE e sua nova versão, o DAMICORE-2 (ambos reconhecidamente eficientes) foram utilizados para detectar clusters que posteriormente foram submetidos ao Método de Rotulação Automática de clusters (MRA), obtendo taxas de acerto média, entre todos os conjuntos de dados, de 86,75%.

Download do trabalho.

Descoberta de Conhecimento em Base de Dados sobre Avistamentos de Peixes-boi Marinho (Trichechus manatus manatus) no Estuário dos Rios Timonha e Ubatuba (PI/CE)

Aluno: Jailson Nunes Leocadio
Dissertação de Mestrado

Resumo: O peixe-boi marinho (Trichechus manatus manatus) é o mamífero aquático mais ameaçado de extinção no Brasil e sua distribuição ao longo da costa marinha tem diminuído com o passar dos anos. Para o desenvolvimento de propostas de preservação da espécie e de seu habitat é preciso conhecer como estes animais interagem com os recursos naturais disponíveis e quais as características ambientais que tornam possível a sua sobrevivência. Métodos estatísticos frequentemente são usados para este propósito, porém não se adequam totalmente à necessidade, tendo em vista que os ecossistemas apresentam relações não-lineares entre seus componentes. Dada a existência de uma base de dados coletados sobre a presença de peixe-boi marinho no estuário dos rios Timonha e Ubatuba (PI/CE), foi proposto o uso do processo de Descoberta de Conhecimento em Bases de Dados (DCBD) para a obtenção de um classificador para a presença da espécie e para a região de aparecimento dos indivíduos, além da descoberta de novos padrões que possam auxiliar no entendimento da ecologia do mamífero aquático na região. A metodologia utilizada engloba o pré-processamento, transformação, mineração dos dados e avaliação/interpretação dos padrões obtidos. No pré-processamento foram retirados ruídos e na fase de transformação os dados foram modificados para permitir sua exploração em diferentes aspectos. Na fase de mineração dos dados foram empregados classificadores dos paradigmas simbólico (J48, Random Forest e Random Tree), estatístico (Naive Bayes e Tree Augmented Naive Bayes) e conexionista (Multi Layer Perceptron e Radial Basis Function). Também foram gerados clusters com o algoritmo K-means e executado a rotulação automática destes grupos gerados. Os resultados obtidos foram avaliados de acordo com um conjunto de métricas selecionadas (acurácia, índice Kappa, precisão, recall, f-measure e área sob a curva ROC) para que se pudesse verificar a qualidade dos modelos gerados, selecionar os melhores resultados e descobrir informações importantes sobre os atributos estudados. O algoritmo Random Forest se destacou na classificação de presença da espécie e obteve uma acurácia de 99,7%. O modelo MLP foi o melhor classificador para a região de aparecimento, ele obteve uma acurácia de 96,1%. A interpretação dos padrões obtidos foi apoiada pela literatura especializada e os resultados estão de acordo com o que é mostrado pelos levantamentos de distribuição e ocorrências do mamífero no país.

Rotulação de grupos utilizando conjuntos fuzzy

Aluno: Vilmar Pereira Ribeiro Filho
Dissertação de Mestrado

Resumo: O agrupamento (clustering) de dados tem sido considerado como um dos tópicos mais relevantes dentre aqueles existentes na área de aprendizagem de máquina não supervisionada. Embora o desenvolvimento e aprimoramento de algoritmos que tratam esse problema tenham sido o principal foco de muitos pesquisadores, a compreensão dos grupos (clusters) é tão importante quanto sua formação. Definir um grupo pode ajudar na sua compreensão, por exemplo, ao se encontrar uma definição para grupos consumidores é possível saber quais as principais diferenças entre os grupos e tomar decisões direcionadas para cada um deles. Frente ao problema de encontrar definições também chamadas de rótulos, capazes de identificar cada grupo de forma fácil, este trabalho descreve um modelo que elabora rótulos utilizando a teoria de conjuntos fuzzy para encontrar características relevantes nos elementos de cada grupo e modelar faixas de valores que identificam os grupos de forma única. Para avaliar o desempenho, o modelo produziu rótulos para grupos de três bases de dados e foi submetido a uma análise comparativa com um modelo de rotulação. Os rótulos produzidos conseguiram representar um grande número de elementos, apresentando assim um bom resultado. Na comparação, o modelo conseguiu produzir rótulos mais fáceis de serem compreendidos. Os experimentos realizados demonstram que o modelo proposto é capaz de construir rótulos para a identificação dos grupos, melhorando assim a compreensão dos grupos fornecidos.

Download do trabalho.

Método Semissupervisionado de Rotulação e Classificação Utilizando Agrupamento por Sementes e Classificadores

Aluno: Bruno Vicente Alves de Lima
Dissertação de Mestrado

Resumo: Na tarefa de classificação utilizando algoritmos de aprendizado de máquina, considera-se a existência de uma base de dados chamada conjunto de treinamento. Esse conjunto possui exemplos que são rotulados(pré-classificados) e utilizados no treinamento do classificador. Deve ter um total de exemplos significativo e equilibrado para que, após o treinamento, o classificador tenha um desempenho satisfatório. Porém, na maioria dos casos reais, obter esse conjunto de treinamento com a quantidade de exemplos suficientes para induzir um classificador no treinamento pode ser oneroso, pois é necessário que seja realizada uma rotulação dos dados por um especialista no problema em questão. Exemplos não-rotulados são mais fáceis de serem coletados em comparação aos que possuem rótulos. A literatura mostra o interesse da comunidade científica em uma nova abordagem de aprendizado chamada de semissupervisionada. Este tipo de aprendizado trabalha em um cenário em que existe um conjunto de dados rotulados, insuficiente para treinar um classificador, juntamente com um outro conjunto com dados não-rotulados, também, disponível no treinamento. O objetivo do trabalho é propor um método que visa rotular dados a partir de um pequeno conjunto rotulado. Esse método combina um classificador e um agrupador para realizar a tarefa de classificação de forma simples em relação à outros métodos encontrados na literatura. Foram realizados experimentos utilizando 5 bases de dados e os resultados comparados com os algoritmos co-training e k-means ki, que são outros algoritmos semissupervisionados que possui o mesmo propósito.

Download do trabalho.