Rotulação Automática de Clusters Baseados em Análise de Filogenias

Aluno: Francisco Neto Carvalho de Araújo
Dissertação de Mestrado

Resumo: O agrupamento (clusterização) é uma das principais técnicas de reconhecimento de padrões. Essa técnica consiste em identificar grupos (clusters) de elementos em um determinado con- junto de dados, levando em consideração métricas que permitam determinar a semelhança entre eles. Os elementos presentes nesses conjuntos de dados (data sets) frequentemente são descritos por meio de atributos, os quais podem assumir valores de diversos tipos, exigindo métodos eficientes na tarefa de detectar correlações entre dados de tipos complexos (ou mistos). No entanto, o processo de clusterização não fornece informações claras que permitam inferir as características de cada cluster formado, ou seja, o resultado do processo de clusterização não permite que os clusters tenham seu significado facilmente compreendido. A rotulação de dados visa identificar essas características e permitir então que se tenha a plena compreensão dos clusters resultantes. Neste trabalho propõe-se a utilização em conjunto de métodos de Aprendizagem de Máquina não supervisionada e supervisionada para as tarefas de agrupamento e rotulação de dados, respectivamente. Os algoritmos DAMICORE e sua nova versão, o DAMICORE-2 (ambos reconhecidamente eficientes) foram utilizados para detectar clusters que posteriormente foram submetidos ao Método de Rotulação Automática de clusters (MRA), obtendo taxas de acerto média, entre todos os conjuntos de dados, de 86,75%.

Download do trabalho.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *