Aluno: Marcel Raimundo de Souza Moura
Dissertação de Mestrado
Resumo:
O clustering (agrupamento de dados) é uma área de pesquisa relevante em aprendizado de máquina. O objetivo do clustering é agrupar os objetos de um conjunto de dados de modo que cada grupo seja constituído por aqueles similares, que possuem características que os tornam agrupáveis, e entre grupos distintos é imprescindível um grau de dissimilaridade. Para que o clustering seja compreendido, a tarefa de interpretação dos grupos é necessária e diante disso surge o problema de rotulação. A rotulação automática, como definida nesta pesquisa, resulta em tuplas compostas por atributos e suas respectivas faixas de valores. Cada cluster deve ter uma quantidade de tuplas capaz de fornecer uma identificação única para todos os objetos, de modo que sejam distinguíveis entre si por atributos representativos distintos ou faixas de valores diferentes para um mesmo atributo. Este trabalho apresenta um método não-supervisionado de rotulação de clusters que emprega o algoritmo de discretização CAIM (Class-Attribute Interdependency Maximization) a fim encontrar faixas de valores representativas nos atributos que serão relevantes para interpretação dos clusters. Do processo de discretização resultarão faixas de valores que serão analisadas e comparadas com os valores ocorrentes dos atributos em cada cluster, para determinar os atributos e faixas de valores representativos. Estes atributos e faixas de valores expressivos formarão o rótulo para cada cluster. O modelo proposto nessa pesquisa buscou obter um método que mitigasse as limitações observadas em outros trabalhos que propunham rotulação automática de clusters. Os testes realizados com 05 bases de dados – Seeds, Iris, Glass, Wine e Forest Fires – resultam em uma acurácia média dos rótulos sugeridos pelo método padrão de rotulação de 98.49%. Os rótulos sugeridos pelo método padrão são constituídos por poucos atributos e em muitos casos um atributo é suficiente para defini-los.