Rotulação Automática de Grupos Baseada em Análise de Erro de Regressão

Aluna: Lúcia Emília Soares Silva
Dissertação de Mestrado

Resumo:

Os Modelos de Rotulação de Grupos propõem a aplicação de técnicas de Inteligência Artificial para extração das principais características dos grupos, a fim de fornecer uma ferramenta para interpretação de agrupamentos oriundos dos mais diversos tipos de algoritmos de clustering. Para isso, diferentes técnicas, como Aprendizagem de Máquina, Lógica Fuzzy e discretização de dados são utilizadas na identificação dos atributos mais relevantes para formação dos grupos e dos intervalos de valores associados a eles. Esse trabalho apresenta um modelo de rotulação de grupos baseado no uso de regressão para delimitação de intervalos de valores dos atributos que revelem os pares atributo-intervalo que melhor resumem os grupos. A relevância de um atributo para o agrupamento é determinada pelos intervalos de valores dos atributos em que o erro de predição da regressão é mínimo, baseado na análise de resíduos da regressão que tenta identificar os intervalos dos atributos em que a existência de observações influentes seja a menor possível. O modelo proposto foi utilizado na rotulação das bases de dados da literatura disponíveis no repositório UCI: Íris, Sementes, Vinhos, Vidros, Câncer de Mama e Parkinson, e avaliado pelos critérios: Taxa de Concordância, que analisa a proporção de elementos dos grupos representados pelos rótulos, e Taxa de Erro, que considera a proporção dos elementos dos demais grupos representados pelos rótulos, medidas a serem maximizada e minimizada, respectivamente. Os resultados obtidos nos experimentos mostram que o modelo é eficaz em rotular os grupos, apresentando Taxa de Concordância média entre 0,93 e 1,0 para as bases de dados utilizadas, superando os modelos da literatura. Além disso, o modelo garante a especificidade dos rótulos, avaliada pelas Taxas de Erro entre 0,05 e 0,12 com desvio padrão de 0,05.

Download do Trabalho.