Modelo de Classificação Fuzzy baseado em Rotulação de grupos e Lógica Fuzzy

Aluno: Sidiney de Sousa Araújo

Dissertação de Mestrado

Resumo: As técnicas de agrupamento e classificação de dados são frequentemente utilizadas com a finalidade de extrair padrões e classificar novos elementos, respectivamente. A combinação de tais técnicas pode ser aplicada em bases de dados em que não se conhece o atributo classe, utilizando a interpretação dos grupos obtidos no processo de agrupamento dos dados para identificação de um padrão que auxilie o processo de classificação. Esta interpretação, apesar de depender do problema abordado, requerendo por vezes o auxílio de um especialista, pode ser desempenhada por modelos de rotulação automáticos. Esses modelos são capazes de identificar características relevantes dos grupos e utilizá-las na formação de rótulos. Além da interpretação dos grupos a adição de outra técnica para classificação pode demandar mais tempo de processamento. Baseado em modelos de rotulação automáticos e lógica Fuzzy, este trabalho propõe um modelo de classificação no qual os rótulos dos grupos são utilizados para formação de regras e funções de pertinência de um sistema Fuzzy. O modelo proposto foi avaliado comparando a acurácia, desvio padrão, índice Kappa e tempo de treinamento com de outros algoritmos de classificação. Além disso, foi analisado a quantidade de regras geradas. Para diferentes bases testadas disponíveis no repositório UCI, os resultados para o índice Kappa foram acima de 0,8, com acurácia e tempo de treinamento similares aos de algoritmos encontrados na literatura.

Download do Trabalho.

Rotulação de Grupos em Algoritmos de Agrupamento Baseados em Distância Utilizando Grau de Pertinência

Aluno:Francisco das Chagas Imperes Filho
Dissertação de Mestrado

Resumo: O agrupamento de dados vem sendo considerado um item relevante na subárea de Aprendizagem de Máquina (AM), mais especificamente Aprendizagem de Máquina Não Supervisionada. Por esse motivo, nos últimos anos este tópico vem ganhando destaque no campo da Inteligência Artificial (IA). O problema relacionado ao agrupamento (clustering) é abordado com frequência em muitos trabalhos, e a compreensão dos grupos (clusters) é tão importante quanto a sua formação. Definir grupos pode auxiliar na interpretação e, consequentemente, direcionar esforços para tomada de decisão levando em consideração as peculiaridades de cada grupo formado. As interpretações dos grupos podem ser bastante úteis quando é necessário saber o que torna um elemento pertencente a um grupo, quais as principais características de um grupo, quais as diferenças e similaridades entre os grupos, entre outras situações. Devido a problemática relacionada a encontrar definições, ou rótulos, capazes de identificar facilmente os grupos formados, este trabalho descreve um modelo que elabora rótulos para encontrar características relevantes nos elementos de cada grupo e identificá-los de forma única. A proposta está dividida em duas partes. Na primeira o modelo transforma a saída padrão de um algoritmo de agrupamento não supervisionado baseado em distância em Grau de Pertinência (GP). Nessa etapa cada elemento da base de dados analisada recebe um GP em relação a cada grupo formado. Na segunda, os elementos com seus respectivos GPs são utilizados para formular faixas de valores para os rótulos. Estes, por sua vez, são capazes de identificar grupos de forma única em bases de dados bem difundidas na literatura. O método foi submetido a uma análise comparativa com outro modelo de rotulação que tem por objetivo identificar características únicas em grupos de dados, facilitando sua compreensão. Os rótulos produzidos pela proposta deste trabalho conseguiram representar um grande número de elementos de cada grupo, favorecendo seu entendimento. Na análise comparativa, o modelo conseguiu produzir rótulos atingindo média de percentual de acertos de 94, 66% nas bases de dados analisadas, permitindo uma fácil interpretação das definições geradas. Por fim, a proposta foi analisada utilizando outras bases de dados atingindo média de percentual de acertos de 92, 01%. Os experimentos realizados demonstram que o modelo proposto é capaz de construir rótulos para a identificação de grupos, melhorando a sua compreensão.

Download do trabalho.

Descoberta de Conhecimento através de Métodos de Aprendizagem de Máquina Simbólicos aplicados ao Ensino a Distância da Universidade Federal do Piauí

Aluna: Aline Montenegro Leal Silva
Dissertação de Mestrado

Resumo: Os cursos superiores na modalidade a distância tiveram um grande crescimento quantitativo na última década. Frente a esse crescimento, surge a preocupação com a qualidade do ensino e consequentemente com a performance acadêmica dos alunos. Com o intuito de identificar os perfis dos estudantes dessa modalidade educacional, especialmente dos cursos de Licenciatura em Computação, Sistemas de Informação e História, o presente trabalho propõe um processo de descoberta de conhecimento através de métodos de Aprendizagem de Máquina (AM) supervisionados aplicados ao ensino superior a distância, mais especificamente à base de dados do Sistema Integrado de Gestão de Atividades Acadêmicas (SIGAA) da Universidade Federal do Piauí (UFPI), cujos registros foram coletados nas duas últimas entradas do vestibular da Universidade Aberta do Brasil, as quais ocorreram em meados de 2014 e no início de 2017, respectivamente. Neste processo de descoberta de conhecimento, realizou-se a identificação de perfis a partir de uma correlação entre o Índice de Rendimento Acadêmico (IRA) e os aspectos sociais desses alunos. Foram utilizados três algoritmos de Aprendizagem de Máquina supervisionados com o paradigma simbólico: J48, RandomTree e SimpleCart. Observou-se que o J48 obteve a melhor performance dentre os algoritmos aplicados, exibindo regras de produção bastante concisas que melhor representam a correlação do IRA com os demais atributos. Os perfis descobertos tendem a auxiliar os gestores do sistema de educação a distância na tomada de decisões em relação a melhorias no processo de ensino-aprendizagem já que, através da mineração de dados, teve-se uma ideia do desempenho do aluno, ao mostrar que a deficiência acadêmica possui correlações com aspectos sociais. A partir dessas informações é possível definir-se estratégias diferenciadas em relação a esses alunos.

Download do Trabalho.

Rotulação Automática de Clusters Baseados em Análise de Filogenias

Aluno: Francisco Neto Carvalho de Araújo
Dissertação de Mestrado

Resumo: O agrupamento (clusterização) é uma das principais técnicas de reconhecimento de padrões. Essa técnica consiste em identificar grupos (clusters) de elementos em um determinado con- junto de dados, levando em consideração métricas que permitam determinar a semelhança entre eles. Os elementos presentes nesses conjuntos de dados (data sets) frequentemente são descritos por meio de atributos, os quais podem assumir valores de diversos tipos, exigindo métodos eficientes na tarefa de detectar correlações entre dados de tipos complexos (ou mistos). No entanto, o processo de clusterização não fornece informações claras que permitam inferir as características de cada cluster formado, ou seja, o resultado do processo de clusterização não permite que os clusters tenham seu significado facilmente compreendido. A rotulação de dados visa identificar essas características e permitir então que se tenha a plena compreensão dos clusters resultantes. Neste trabalho propõe-se a utilização em conjunto de métodos de Aprendizagem de Máquina não supervisionada e supervisionada para as tarefas de agrupamento e rotulação de dados, respectivamente. Os algoritmos DAMICORE e sua nova versão, o DAMICORE-2 (ambos reconhecidamente eficientes) foram utilizados para detectar clusters que posteriormente foram submetidos ao Método de Rotulação Automática de clusters (MRA), obtendo taxas de acerto média, entre todos os conjuntos de dados, de 86,75%.

Download do trabalho.