Aluno:Francisco das Chagas Imperes Filho
Dissertação de Mestrado
Resumo: O agrupamento de dados vem sendo considerado um item relevante na subárea de Aprendizagem de Máquina (AM), mais especificamente Aprendizagem de Máquina Não Supervisionada. Por esse motivo, nos últimos anos este tópico vem ganhando destaque no campo da Inteligência Artificial (IA). O problema relacionado ao agrupamento (clustering) é abordado com frequência em muitos trabalhos, e a compreensão dos grupos (clusters) é tão importante quanto a sua formação. Definir grupos pode auxiliar na interpretação e, consequentemente, direcionar esforços para tomada de decisão levando em consideração as peculiaridades de cada grupo formado. As interpretações dos grupos podem ser bastante úteis quando é necessário saber o que torna um elemento pertencente a um grupo, quais as principais características de um grupo, quais as diferenças e similaridades entre os grupos, entre outras situações. Devido a problemática relacionada a encontrar definições, ou rótulos, capazes de identificar facilmente os grupos formados, este trabalho descreve um modelo que elabora rótulos para encontrar características relevantes nos elementos de cada grupo e identificá-los de forma única. A proposta está dividida em duas partes. Na primeira o modelo transforma a saída padrão de um algoritmo de agrupamento não supervisionado baseado em distância em Grau de Pertinência (GP). Nessa etapa cada elemento da base de dados analisada recebe um GP em relação a cada grupo formado. Na segunda, os elementos com seus respectivos GPs são utilizados para formular faixas de valores para os rótulos. Estes, por sua vez, são capazes de identificar grupos de forma única em bases de dados bem difundidas na literatura. O método foi submetido a uma análise comparativa com outro modelo de rotulação que tem por objetivo identificar características únicas em grupos de dados, facilitando sua compreensão. Os rótulos produzidos pela proposta deste trabalho conseguiram representar um grande número de elementos de cada grupo, favorecendo seu entendimento. Na análise comparativa, o modelo conseguiu produzir rótulos atingindo média de percentual de acertos de 94, 66% nas bases de dados analisadas, permitindo uma fácil interpretação das definições geradas. Por fim, a proposta foi analisada utilizando outras bases de dados atingindo média de percentual de acertos de 92, 01%. Os experimentos realizados demonstram que o modelo proposto é capaz de construir rótulos para a identificação de grupos, melhorando a sua compreensão.