Aluno: Tarcísio Franco Jaime
Dissertação de Mestrado
Resumo:
Com o avanço da tecnologia, cada vez mais equipamentos estão se conectando nas redes, gerando fluxos e processamento de dados. Com isso, mais algoritmos de aprendizado de máquina estão sendo estudados para extraírem informações relevantes desses grandes volumes. Com o grande aumento desse fluxo de dados, a interpretação destes pode ser prejudicada, sendo o grau de dificuldade proporcional a esse crescimento. É nesse contexto que essa pesquisa atua utilizando algoritmos de aprendizado de máquina supervisionados, os quais são algoritmos capazes de aprender através de determinados exemplos ou comportamentos. Neste trabalho realizou-se uma pesquisa científica com o objetivo de identificar em grupos de dados quais são os atributos mais significativos junto aos valores que mais se repetem a ponto de representá-lo, denominando-se essa teécnica de rotulação. Dessa forma, utilizou-se técnica de algoritmos supervisionados, que através dos dados de entrada fazem uma correlação com uma saída desejável, e mediante isso, essa técnica é aplicada em todos os atributos para encontrar o mais significativo no cluster. Em seguida, a partir desse atributo mais significativo, utiliza-se um intervalo de dados que possui maior incidência de valores compondo o rótulo (atributo/faixa de valor). Nas bases testadas, somente uma dentre as quatro, obtiveram acurácias em alguns clusters abaixo de 70%, mas em todas outras os rótulos tiveram acurácias acima desse valor, indicando que é possível identificar os grupos através dos rótulos encontrados.