Trabalhos Orientados | Vinicius Machado

Aluno: Bruno Vicente Alves de Lima
Dissertação de Mestrado

Resumo: Na tarefa de classificação utilizando algoritmos de aprendizado de máquina, considera-se a existência de uma base de dados chamada conjunto de treinamento. Esse conjunto possui exemplos que são rotulados(pré-classificados) e utilizados no treinamento do classificador. Deve ter um total de exemplos significativo e equilibrado para que, após o treinamento, o classificador tenha um desempenho satisfatório. Porém, na maioria dos casos reais, obter esse conjunto de treinamento com a quantidade de exemplos suficientes para induzir um classificador no treinamento pode ser oneroso, pois é necessário que seja realizada uma rotulação dos dados por um especialista no problema em questão. Exemplos não-rotulados são mais fáceis de serem coletados em comparação aos que possuem rótulos. A literatura mostra o interesse da comunidade científica em uma nova abordagem de aprendizado chamada de semissupervisionada. Este tipo de aprendizado trabalha em um cenário em que existe um conjunto de dados rotulados, insuficiente para treinar um classificador, juntamente com um outro conjunto com dados não-rotulados, também, disponível no treinamento. O objetivo do trabalho é propor um método que visa rotular dados a partir de um pequeno conjunto rotulado. Esse método combina um classificador e um agrupador para realizar a tarefa de classificação de forma simples em relação à outros métodos encontrados na literatura. Foram realizados experimentos utilizando 5 bases de dados e os resultados comparados com os algoritmos co-training e k-means ki, que são outros algoritmos semissupervisionados que possui o mesmo propósito.

Download do trabalho.

Aluno:Lucas Araújo Lopes
Dissertação de Mestrado

Resumo: O problema de agrupamento (clustering) tem sido considerado como um dos problemas mais relevantes dentre aqueles existentes na área de pesquisa de aprendizagem não-supervisionada (subárea de Aprendizagem de Máquina). Embora o desenvolvimento e aprimoramento de algoritmos que solucionam esse problema tenha sido o principal foco de muitos pesquisadores o objetivo inicial se manteve obscuro: a compreensão dos grupos formados. Tão importante quanto a identificação dos grupos (clusters) é sua compreensão e definição. Uma boa definição de um cluster representa um entendimento significativo e pode ajudar o especialista ao estudar ou interpretar dados. Frente ao problema de compreender clusters – isto é, de encontrar uma definição ou em outras palavras, um rótulo – este trabalho apresenta uma definição para esse problema, denominado problema de rotulação, além de uma solução baseada em técnicas com aprendizagem supervisionada, não-supervisionada e um modelo de discretização. Dessa forma, o problema é tratado desde sua concepção: o agrupamento de dados. Para isso, um método com aprendizagem não-supervisionada é aplicado ao problema de clustering e então um algoritmo com aprendizagem supervisionada irá detectar quais atributos são relevantes para definir um dado cluster. Adicionalmente, algumas estratégias são utilizadas para formar uma metodologia que apresenta em sua totalidade um rótulo (baseado em atributos e valores) para cada grupo fornecido. Finalmente, essa metodologia é aplicada em quatro bases de dados distintas apresentando bons resultados com uma média acima de 93.5% dos elementos rotulados corretamente.

Download do trabalho.

Vinicius Machado

Arquivo da categoria: Trabalhos Orientados

Método Semissupervisionado de Rotulação e Classificação Utilizando Agrupamento por Sementes e Classificadores

Rotulação Automática de Grupos com Aprendizagem de Máquina Supervisionada