Método Semissupervisionado de Rotulação e Classificação Utilizando Agrupamento por Sementes e Classificadores

Aluno: Bruno Vicente Alves de Lima
Dissertação de Mestrado

Resumo: Na tarefa de classificação utilizando algoritmos de aprendizado de máquina, considera-se a existência de uma base de dados chamada conjunto de treinamento. Esse conjunto possui exemplos que são rotulados(pré-classificados) e utilizados no treinamento do classificador. Deve ter um total de exemplos significativo e equilibrado para que, após o treinamento, o classificador tenha um desempenho satisfatório. Porém, na maioria dos casos reais, obter esse conjunto de treinamento com a quantidade de exemplos suficientes para induzir um classificador no treinamento pode ser oneroso, pois é necessário que seja realizada uma rotulação dos dados por um especialista no problema em questão. Exemplos não-rotulados são mais fáceis de serem coletados em comparação aos que possuem rótulos. A literatura mostra o interesse da comunidade científica em uma nova abordagem de aprendizado chamada de semissupervisionada. Este tipo de aprendizado trabalha em um cenário em que existe um conjunto de dados rotulados, insuficiente para treinar um classificador, juntamente com um outro conjunto com dados não-rotulados, também, disponível no treinamento. O objetivo do trabalho é propor um método que visa rotular dados a partir de um pequeno conjunto rotulado. Esse método combina um classificador e um agrupador para realizar a tarefa de classificação de forma simples em relação à outros métodos encontrados na literatura. Foram realizados experimentos utilizando 5 bases de dados e os resultados comparados com os algoritmos co-training e k-means ki, que são outros algoritmos semissupervisionados que possui o mesmo propósito.

Download do trabalho.

Vinicius Machado

Método Semissupervisionado de Rotulação e Classificação Utilizando Agrupamento por Sementes e Classificadores

Deixe um comentário Cancelar resposta