Em tempos de pandemia, minha colaboração para a comunidade da UFPI no uso das ferramentas digitais para o apoio ao ensino remoto.
Arquivo do Autor: vpmachado
CAIBAL – Cluster-Attribute Interdependency Based Automatic Labeler
Aluno: Marcel Raimundo de Souza Moura
Dissertação de Mestrado
Resumo:
O clustering (agrupamento de dados) é uma área de pesquisa relevante em aprendizado de máquina. O objetivo do clustering é agrupar os objetos de um conjunto de dados de modo que cada grupo seja constituído por aqueles similares, que possuem características que os tornam agrupáveis, e entre grupos distintos é imprescindível um grau de dissimilaridade. Para que o clustering seja compreendido, a tarefa de interpretação dos grupos é necessária e diante disso surge o problema de rotulação. A rotulação automática, como definida nesta pesquisa, resulta em tuplas compostas por atributos e suas respectivas faixas de valores. Cada cluster deve ter uma quantidade de tuplas capaz de fornecer uma identificação única para todos os objetos, de modo que sejam distinguíveis entre si por atributos representativos distintos ou faixas de valores diferentes para um mesmo atributo. Este trabalho apresenta um método não-supervisionado de rotulação de clusters que emprega o algoritmo de discretização CAIM (Class-Attribute Interdependency Maximization) a fim encontrar faixas de valores representativas nos atributos que serão relevantes para interpretação dos clusters. Do processo de discretização resultarão faixas de valores que serão analisadas e comparadas com os valores ocorrentes dos atributos em cada cluster, para determinar os atributos e faixas de valores representativos. Estes atributos e faixas de valores expressivos formarão o rótulo para cada cluster. O modelo proposto nessa pesquisa buscou obter um método que mitigasse as limitações observadas em outros trabalhos que propunham rotulação automática de clusters. Os testes realizados com 05 bases de dados – Seeds, Iris, Glass, Wine e Forest Fires – resultam em uma acurácia média dos rótulos sugeridos pelo método padrão de rotulação de 98.49%. Os rótulos sugeridos pelo método padrão são constituídos por poucos atributos e em muitos casos um atributo é suficiente para defini-los.
Machine Learning: Como começar e como atuar na área
Live sobre os primeiros passos para ingresso na área de Machine Learning. Bate bapo-com o Arthur do canal Fábrica de Gênios.
Uso de Algoritmos de Aprendizado de Máquina Supervisionado para Rotulação de Dados
Aluno: Tarcísio Franco Jaime
Dissertação de Mestrado
Resumo:
Com o avanço da tecnologia, cada vez mais equipamentos estão se conectando nas redes, gerando fluxos e processamento de dados. Com isso, mais algoritmos de aprendizado de máquina estão sendo estudados para extraírem informações relevantes desses grandes volumes. Com o grande aumento desse fluxo de dados, a interpretação destes pode ser prejudicada, sendo o grau de dificuldade proporcional a esse crescimento. É nesse contexto que essa pesquisa atua utilizando algoritmos de aprendizado de máquina supervisionados, os quais são algoritmos capazes de aprender através de determinados exemplos ou comportamentos. Neste trabalho realizou-se uma pesquisa científica com o objetivo de identificar em grupos de dados quais são os atributos mais significativos junto aos valores que mais se repetem a ponto de representá-lo, denominando-se essa teécnica de rotulação. Dessa forma, utilizou-se técnica de algoritmos supervisionados, que através dos dados de entrada fazem uma correlação com uma saída desejável, e mediante isso, essa técnica é aplicada em todos os atributos para encontrar o mais significativo no cluster. Em seguida, a partir desse atributo mais significativo, utiliza-se um intervalo de dados que possui maior incidência de valores compondo o rótulo (atributo/faixa de valor). Nas bases testadas, somente uma dentre as quatro, obtiveram acurácias em alguns clusters abaixo de 70%, mas em todas outras os rótulos tiveram acurácias acima desse valor, indicando que é possível identificar os grupos através dos rótulos encontrados.
Modelo para Classificação de Fornecedores da Administração Pública Baseado em Aprendizagem de Máquina Supervisionada
Aluno: Joselito Mendes de Sousa Junior
Dissertação de Mestrado
Resumo: Contratos públicos podem ser entendidos como ajustes realizados entre a Administração Pública e particulares, para a consecução de objetivos de interesse público, com regras e condições estabelecidas pela própria Administração. Em outras palavras, contratos públicos são realizados através de um modelo de compras públicas. No Brasil, respondem por mais de 19% do Produto Interno Bruto (PIB). O modelo de compras públicas passou, nas últimas décadas, por um processo de automação, com a criação do Portal de Compras Governamentais e a implantação de pregões eletrônicos. O crescimento do PIB nesse período foi acompanhado por uma elevação nos gastos públicos que reflete o aumento do número de contratos firmados e licitações ou compras diretas realizadas. Considerando o desafio das instituições de controle governamental brasileiras de garantir eficiência e regularidade desses processos, propõe-se neste trabalho um modelo computacional que utilize aprendizagem de máquina para a classificação de fornecedores públicos. Para o modelo proposto, baseado no problema de classificação binária, deverá aprender as características dos fornecedores considerados de baixo risco (bons) e dos fornecedores considerados de alto risco (ruins) e, com isso, classificar os novos fornecedores inseridos na base de dados dos fornecedores do TCE-PI. A base de dados utilizada foi fornecida pelo Tribunal de Contas do Estado do Piauí e é composta pela união de dados presentes em outras bases, como na Receita Federal, no Tribunal Superior Eleitoral e no Portal da Transparência. A abordagem utilizada nesse trabalho baseia-se em selecionar e preparar os dados presentes na base de dados dos fornecedores para, em seguida, realizar-se uma etapa de testes e uma etapa de desenvolvimento. Na etapa de testes são realizados vários experimentos com a ferramenta WEKA para fazer uma análise do melhor algoritmo a ser utilizado no problema de classificação. Nessa etapa, definiu-se como a melhor solução utilizar o algoritmo J48, que apresenta taxa de classificação superior a 82%, podendo, em alguns casos, chegar a 94%. Na etapa de desenvolvimento, foi efetivada a implementação do algoritmo J48 e do Sistema de Avaliação de Fornecedores (SAF) como produto final da pesquisa aplicada ao problema de classificação dos fornecedores.