CAIBAL – Cluster-Attribute Interdependency Based Automatic Labeler

Aluno: Marcel Raimundo de Souza Moura
Dissertação de Mestrado

Resumo:

O clustering (agrupamento de dados) é uma área de pesquisa relevante em aprendizado de máquina. O objetivo do clustering é agrupar os objetos de um conjunto de dados de modo que cada grupo seja constituído por aqueles similares, que possuem características que os tornam agrupáveis, e entre grupos distintos é imprescindível um grau de dissimilaridade. Para que o clustering seja compreendido, a tarefa de interpretação dos grupos é necessária e diante disso surge o problema de rotulação. A rotulação automática, como definida nesta pesquisa, resulta em tuplas compostas por atributos e suas respectivas faixas de valores. Cada cluster deve ter uma quantidade de tuplas capaz de fornecer uma identificação única para todos os objetos, de modo que sejam distinguíveis entre si por atributos representativos distintos ou faixas de valores diferentes para um mesmo atributo. Este trabalho apresenta um método não-supervisionado de rotulação de clusters que emprega o algoritmo de discretização CAIM (Class-Attribute Interdependency Maximization) a fim encontrar faixas de valores representativas nos atributos que serão relevantes para interpretação dos clusters. Do processo de discretização resultarão faixas de valores que serão analisadas e comparadas com os valores ocorrentes dos atributos em cada cluster, para determinar os atributos e faixas de valores representativos. Estes atributos e faixas de valores expressivos formarão o rótulo para cada cluster. O modelo proposto nessa pesquisa buscou obter um método que mitigasse as limitações observadas em outros trabalhos que propunham rotulação automática de clusters. Os testes realizados com 05 bases de dados – Seeds, Iris, Glass, Wine e Forest Fires – resultam em uma acurácia média dos rótulos sugeridos pelo método padrão de rotulação de 98.49%. Os rótulos sugeridos pelo método padrão são constituídos por poucos atributos e em muitos casos um atributo é suficiente para defini-los.

Download do Trabalho.

Uso de Algoritmos de Aprendizado de Máquina Supervisionado para Rotulação de Dados

Aluno: Tarcísio Franco Jaime

Dissertação de Mestrado

Resumo:

Com o avanço da tecnologia, cada vez mais equipamentos estão se conectando nas redes, gerando fluxos e processamento de dados. Com isso, mais algoritmos de aprendizado de máquina estão sendo estudados para extraírem informações relevantes desses grandes volumes. Com o grande aumento desse fluxo de dados, a interpretação destes pode ser prejudicada, sendo o grau de dificuldade proporcional a esse crescimento. É nesse contexto que essa pesquisa atua utilizando algoritmos de aprendizado de máquina supervisionados, os quais são algoritmos capazes de aprender através de determinados exemplos ou comportamentos. Neste trabalho realizou-se uma pesquisa científica com o objetivo de identificar em grupos de dados quais são os atributos mais significativos junto aos valores que mais se repetem a ponto de representá-lo, denominando-se essa teécnica de rotulação. Dessa forma, utilizou-se técnica de algoritmos supervisionados, que através dos dados de entrada fazem uma correlação com uma saída desejável, e mediante isso, essa técnica é aplicada em todos os atributos para encontrar o mais significativo no cluster. Em seguida, a partir desse atributo mais significativo, utiliza-se um intervalo de dados que possui maior incidência de valores compondo o rótulo (atributo/faixa de valor). Nas bases testadas, somente uma dentre as quatro, obtiveram acurácias em alguns clusters abaixo de 70%, mas em todas outras os rótulos tiveram acurácias acima desse valor, indicando que é possível identificar os grupos através dos rótulos encontrados.

Download do trabalho.

Modelo para Classificação de Fornecedores da Administração Pública Baseado em Aprendizagem de Máquina Supervisionada

Aluno: Joselito Mendes de Sousa Junior

Dissertação de Mestrado

Resumo: Contratos públicos podem ser entendidos como ajustes realizados entre a Administração Pública e particulares, para a consecução de objetivos de interesse público, com regras e condições estabelecidas pela própria Administração. Em outras palavras, contratos públicos são realizados através de um modelo de compras públicas. No Brasil, respondem por mais de 19% do Produto Interno Bruto (PIB). O modelo de compras públicas passou, nas últimas décadas, por um processo de automação, com a criação do Portal de Compras Governamentais e a implantação de pregões eletrônicos. O crescimento do PIB nesse período foi acompanhado por uma elevação nos gastos públicos que reflete o aumento do número de contratos firmados e licitações ou compras diretas realizadas. Considerando o desafio das instituições de controle governamental brasileiras de garantir eficiência e regularidade desses processos, propõe-se neste trabalho um modelo computacional que utilize aprendizagem de máquina para a classificação de fornecedores públicos. Para o modelo proposto, baseado no problema de classificação binária, deverá aprender as características dos fornecedores considerados de baixo risco (bons) e dos fornecedores considerados de alto risco (ruins) e, com isso, classificar os novos fornecedores inseridos na base de dados dos fornecedores do TCE-PI. A base de dados utilizada foi fornecida pelo Tribunal de Contas do Estado do Piauí e é composta pela união de dados presentes em outras bases, como na Receita Federal, no Tribunal Superior Eleitoral e no Portal da Transparência. A abordagem utilizada nesse trabalho baseia-se em selecionar e preparar os dados presentes na base de dados dos fornecedores para, em seguida, realizar-se uma etapa de testes e uma etapa de desenvolvimento. Na etapa de testes são realizados vários experimentos com a ferramenta WEKA para fazer uma análise do melhor algoritmo a ser utilizado no problema de classificação. Nessa etapa, definiu-se como a melhor solução utilizar o algoritmo J48, que apresenta taxa de classificação superior a 82%, podendo, em alguns casos, chegar a 94%. Na etapa de desenvolvimento, foi efetivada a implementação do algoritmo J48 e do Sistema de Avaliação de Fornecedores (SAF) como produto final da pesquisa aplicada ao problema de classificação dos fornecedores.

Download do trabalho.

Modelo de Classificação Fuzzy baseado em Rotulação de grupos e Lógica Fuzzy

Aluno: Sidiney de Sousa Araújo

Dissertação de Mestrado

Resumo: As técnicas de agrupamento e classificação de dados são frequentemente utilizadas com a finalidade de extrair padrões e classificar novos elementos, respectivamente. A combinação de tais técnicas pode ser aplicada em bases de dados em que não se conhece o atributo classe, utilizando a interpretação dos grupos obtidos no processo de agrupamento dos dados para identificação de um padrão que auxilie o processo de classificação. Esta interpretação, apesar de depender do problema abordado, requerendo por vezes o auxílio de um especialista, pode ser desempenhada por modelos de rotulação automáticos. Esses modelos são capazes de identificar características relevantes dos grupos e utilizá-las na formação de rótulos. Além da interpretação dos grupos a adição de outra técnica para classificação pode demandar mais tempo de processamento. Baseado em modelos de rotulação automáticos e lógica Fuzzy, este trabalho propõe um modelo de classificação no qual os rótulos dos grupos são utilizados para formação de regras e funções de pertinência de um sistema Fuzzy. O modelo proposto foi avaliado comparando a acurácia, desvio padrão, índice Kappa e tempo de treinamento com de outros algoritmos de classificação. Além disso, foi analisado a quantidade de regras geradas. Para diferentes bases testadas disponíveis no repositório UCI, os resultados para o índice Kappa foram acima de 0,8, com acurácia e tempo de treinamento similares aos de algoritmos encontrados na literatura.

Download do Trabalho.

Rotulação de Grupos em Algoritmos de Agrupamento Baseados em Distância Utilizando Grau de Pertinência

Aluno:Francisco das Chagas Imperes Filho
Dissertação de Mestrado

Resumo: O agrupamento de dados vem sendo considerado um item relevante na subárea de Aprendizagem de Máquina (AM), mais especificamente Aprendizagem de Máquina Não Supervisionada. Por esse motivo, nos últimos anos este tópico vem ganhando destaque no campo da Inteligência Artificial (IA). O problema relacionado ao agrupamento (clustering) é abordado com frequência em muitos trabalhos, e a compreensão dos grupos (clusters) é tão importante quanto a sua formação. Definir grupos pode auxiliar na interpretação e, consequentemente, direcionar esforços para tomada de decisão levando em consideração as peculiaridades de cada grupo formado. As interpretações dos grupos podem ser bastante úteis quando é necessário saber o que torna um elemento pertencente a um grupo, quais as principais características de um grupo, quais as diferenças e similaridades entre os grupos, entre outras situações. Devido a problemática relacionada a encontrar definições, ou rótulos, capazes de identificar facilmente os grupos formados, este trabalho descreve um modelo que elabora rótulos para encontrar características relevantes nos elementos de cada grupo e identificá-los de forma única. A proposta está dividida em duas partes. Na primeira o modelo transforma a saída padrão de um algoritmo de agrupamento não supervisionado baseado em distância em Grau de Pertinência (GP). Nessa etapa cada elemento da base de dados analisada recebe um GP em relação a cada grupo formado. Na segunda, os elementos com seus respectivos GPs são utilizados para formular faixas de valores para os rótulos. Estes, por sua vez, são capazes de identificar grupos de forma única em bases de dados bem difundidas na literatura. O método foi submetido a uma análise comparativa com outro modelo de rotulação que tem por objetivo identificar características únicas em grupos de dados, facilitando sua compreensão. Os rótulos produzidos pela proposta deste trabalho conseguiram representar um grande número de elementos de cada grupo, favorecendo seu entendimento. Na análise comparativa, o modelo conseguiu produzir rótulos atingindo média de percentual de acertos de 94, 66% nas bases de dados analisadas, permitindo uma fácil interpretação das definições geradas. Por fim, a proposta foi analisada utilizando outras bases de dados atingindo média de percentual de acertos de 92, 01%. Os experimentos realizados demonstram que o modelo proposto é capaz de construir rótulos para a identificação de grupos, melhorando a sua compreensão.

Download do trabalho.