Método Semissupervisionado de Rotulação e Classificação Utilizando Agrupamento por Sementes e Classificadores

Aluno: Bruno Vicente Alves de Lima
Dissertação de Mestrado

Resumo: Na tarefa de classificação utilizando algoritmos de aprendizado de máquina, considera-se a existência de uma base de dados chamada conjunto de treinamento. Esse conjunto possui exemplos que são rotulados(pré-classificados) e utilizados no treinamento do classificador. Deve ter um total de exemplos significativo e equilibrado para que, após o treinamento, o classificador tenha um desempenho satisfatório. Porém, na maioria dos casos reais, obter esse conjunto de treinamento com a quantidade de exemplos suficientes para induzir um classificador no treinamento pode ser oneroso, pois é necessário que seja realizada uma rotulação dos dados por um especialista no problema em questão. Exemplos não-rotulados são mais fáceis de serem coletados em comparação aos que possuem rótulos. A literatura mostra o interesse da comunidade científica em uma nova abordagem de aprendizado chamada de semissupervisionada. Este tipo de aprendizado trabalha em um cenário em que existe um conjunto de dados rotulados, insuficiente para treinar um classificador, juntamente com um outro conjunto com dados não-rotulados, também, disponível no treinamento. O objetivo do trabalho é propor um método que visa rotular dados a partir de um pequeno conjunto rotulado. Esse método combina um classificador e um agrupador para realizar a tarefa de classificação de forma simples em relação à outros métodos encontrados na literatura. Foram realizados experimentos utilizando 5 bases de dados e os resultados comparados com os algoritmos co-training e k-means ki, que são outros algoritmos semissupervisionados que possui o mesmo propósito.

Download do trabalho.

Rotulação Automática de Grupos com Aprendizagem de Máquina Supervisionada

Aluno:Lucas Araújo Lopes
Dissertação de Mestrado

Resumo: O problema de agrupamento (clustering) tem sido considerado como um dos problemas mais relevantes dentre aqueles existentes na área de pesquisa de aprendizagem não-supervisionada (subárea de Aprendizagem de Máquina). Embora o desenvolvimento e aprimoramento de algoritmos que solucionam esse problema tenha sido o principal foco de muitos pesquisadores o objetivo inicial se manteve obscuro: a compreensão dos grupos formados. Tão importante quanto a identificação dos grupos (clusters) é sua compreensão e definição. Uma boa definição de um cluster representa um entendimento significativo e pode ajudar o especialista ao estudar ou interpretar dados. Frente ao problema de compreender clusters – isto é, de encontrar uma definição ou em outras palavras, um rótulo – este trabalho apresenta uma definição para esse problema, denominado problema de rotulação, além de uma solução baseada em técnicas com aprendizagem supervisionada, não-supervisionada e um modelo de discretização. Dessa forma, o problema é tratado desde sua concepção: o agrupamento de dados. Para isso, um método com aprendizagem não-supervisionada é aplicado ao problema de clustering e então um algoritmo com aprendizagem supervisionada irá detectar quais atributos são relevantes para definir um dado cluster. Adicionalmente, algumas estratégias são utilizadas para formar uma metodologia que apresenta em sua totalidade um rótulo (baseado em atributos e valores) para cada grupo fornecido. Finalmente, essa metodologia é aplicada em quatro bases de dados distintas apresentando bons resultados com uma média acima de 93.5% dos elementos rotulados corretamente.

Download do trabalho.