Avaliação de modelos preditivos baseados em aprendizagem de máquina no contexto da evasão escolar considerando um cenário multicampi

Dissertação de Mestrado
Aluno: Francisco Alysson da Silva Sousa

Resumo: A evasão escolar e os fatores diversos relacionados a esse comportamento despontam como um dos grandes desafios ao pleno desenvolvimento da educação. No contexto nacional, estima-se que 27% do número total de alunos matriculados não concluem o percurso formativo previsto nas respectivas ofertas. Delimitando-se na proposta da Rede Federal de Educação Profissional, Científica e Tecnológica (RFEPCT), especificamente na Educação Profissional Técnica de Nível Médio (EPTNM) ofertada no Instituto Federal do Piauí(IFPI), esse estudo identificou um alarmante decréscimo no número de concluíntes que já supera os 47% no percentual acumulado nos últimos 5 (cinco) anos, conforme estatísticas oficiais apresentadas na Plataforma Nilo Peçanha (PNP). Assim, a identificação de forma prévia da tendência a esse comportamento certamente contribui como subsídio para o direcionamento de estratégias de enfrentamento. Nesse sentido, o uso da inteligência artificial, especificamente na subárea aprendizado de máquina, apresenta-se como importante recurso preditivo de apoio à gestão educacional. É nessa perspectiva que se define a proposta deste trabalho em avaliar classificadores quanto a ocorrência de evasão no âmbito do ensino técnico multicampi, para tanto, foram aplicados os algoritmos de Decision Tree (DT), Random Forest (RF), Gradient Boost (GB), Multi-Layer Perceptron (MLP) e Support Vector Machine (SVM).

Os modelos utilizados foram submetidos a análises comparativas a partir de estudos de casos com dados extraídos da PNP, sistema do Ministério de Educação alimentado e validado diretamente pelas instituições. Os resultados dos modelos melhor avaliados (DT e RF) apresentam médias superiores a 90% quando consideradas todas as unidades da instituição em testes segmentados e agrupados destacando ainda uma tendência de evolução nas performances que favorece o potencial escalável da proposta a toda a rede. Os valores obtidos avaliam a sensibilidade e a precisão com suas relevâncias equiparadas e resumidas pela métrica F-score.

Download do Trabalho

Descoberta de Risco em Licitações do Tribunal de Contas do Estado do Piauí baseado em Aprendizagem de Máquina Supervisionada utilizando atributos textuais e descritivos

Dissertação de Mestrado
Aluno: Valney da Gama Costa

Resumo:

Resumo
A licitação é o processo administrativo em que um órgão público oferta às empresas interessadas a oportunidade de efetuarem propostas para a realização de serviços ou compra de um ou mais produtos para este ente e escolhe dentre elas a que melhor supre o que é pedido, respeitando critérios definidos em lei. O Tribunal de Contas do Estado do Piauí é um dos órgãos públicos de controle externo, responsável pela fiscalização contábil, financeira e orçamentária de outros órgãos e entidades do estado do Piauí. Os auditores
do TCE/PI têm dificuldade em examinar todos os procedimentos licitatórios publicados antes da efetivação e gasto financeiro dos envolvidos. Este trabalho tem como objetivo descobrir antecipadamente ou durante a execução dos procedimentos licitatórios, um rótulo de risco que facilite sua fiscalização. Portanto pretende-se definir a criação de um modelo de decisão baseada em aprendizagem de máquina em conjunto com técnicas de processamento de linguagem natural, para tratamento de atributos textuais e descritivos, aplicado aos procedimentos licitatórios publicados no Tribunal de Contas do Estado do Piauí, melhorando as técnicas de fiscalizações dos Tribunais de Contas a partir de dados públicos das próprias licitações publicadas no órgão, e informações de análises anteriores de auditores. Os modelos desenvolvidos utilizaram os algoritmos J48, RandomForest e Redes Neurais Multicamadas (MLP) e obtiveram acurácias médias até 81%, com destaque ao algoritmo de RandomForest, responsável por obter acurácia máxima de 82%.

Download do Trabalho

Rotulação Automática de Grupos Através do Uso de Filtros de Ganho de Informação de Atributos

Dissertação de Mestrado
Aluna: Marina dos Reis Barros Alencar

Resumo:

Identificar semelhanças nos dados que não foram rotulados, classificados ou categorizados é uma das funções do aprendizado não supervisionado. O agrupamento (do inglês clustering) é uma técnica que permite dividir automaticamente o conjunto de dados de acordo com uma similaridade. A grande vantagem do uso das técnicas de agrupamento é que, ao agrupar dados similares, pode-se descrever de forma mais eficiente e eficaz as características peculiares de cada um dos grupos identificados. Dessa forma, este trabalho tem como objetivo a interpretação desses grupos através de rótulos. O rótulo é um conjunto de valores relevantes que representam uma definição para um grupo. Esta abordagem utilizou técnicas com aprendizagem de máquina não supervisionada, aplicação dos filtros de ganho de informação através da seleção de atributos e um modelo de discretização. Na metodologia proposta foi aplicado o algoritmo não supervisionado para formação dos grupos e diferentes filtros de seleção de atributos para expor a relevância dos atributos e comparar o funcionamento deles. Também, para contribuir no processo de rotulação foi utilizado um método de discretização auxiliando no cálculo da variação de valores dos dados. O modelo proposto foi aplicado na rotulação das bases de dados disponíveis no repositório UCI, sendo elas, Íris, Seeds, Wine e Glass. Obtendo-se uma taxa de acerto média de 83.66% com desvio padrão médio de 4.98.

Download do Trabalho

Um descritor híbrido de dados clínicos com textura ou deep features para classificação de patologias renais

Aluna: Laiara Cristina da Silva
Dissertação de Mestrado

Resumo:

A importância da função glomerular na fisiologia renal e o fato de suas lesões afetarem outros segmentos do néfron caracterizam as enfermidades glomerulares, como um dos principais problemas em Nefrologia nos dias de hoje. No Brasil, as glomerulopatias são uma das causas mais comuns de falência renal e responsáveis por cerca de 27% dos transplantes. Desta forma, encontrar e classificar lesões glomerulares são etapas fundamentais para o diagnóstico de muitas doenças renais e que contam com a experiência de um nefropatologista. Além disso, muitos fatores como fadiga e trabalho repetitivo inerentes à profissão podem conduzir a um diagnóstico errado. Por outro lado a Aprendizagem de Máquina se apresenta como importante ferramenta devido à sua capacidade de simular o conhecimento de um especialista a partir de experiências passadas, por isso, vêm sendo utilizada com sucesso na resolução de muitos problemas complexos. Tendo isso em vista, este trabalho realiza um estudo comparativo entre os algoritmos de Aprendizagem de Máquina Árvore de Decisão, SVM, Random Forest e MLP a fim de propor um modelo de classificador que auxilie o profissional especialista na definição de um diagnóstico de patologia renal. Concomitante ao estudo comparativo entre os classificadores, este trabalho também analisa 6 descritores de textura das imagens, cuja combinação de 1 ou mais desses descritores será adicionada aos dados clínicos correspondentes à cada imagem e juntos servirão como entrada de um classificador. Além disso, outro conjunto híbrido de dados clínicos com deep features foram testados, ao todo foram testadas 5 redes pré-treinadas. Os melhores resultados que obtivemos foi quando concatenamos os recursos de DC e HOG, que resultou em um excelente índice Kappa e acurácia de 98,46% e quando concatenamos DC e MobileNet, obtivemos índice Kappa excelente e acurácia de 95,38%.

Download do trabalho

Rotulação Automática de Grupos Baseada em Análise de Erro de Regressão

Aluna: Lúcia Emília Soares Silva
Dissertação de Mestrado

Resumo:

Os Modelos de Rotulação de Grupos propõem a aplicação de técnicas de Inteligência Artificial para extração das principais características dos grupos, a fim de fornecer uma ferramenta para interpretação de agrupamentos oriundos dos mais diversos tipos de algoritmos de clustering. Para isso, diferentes técnicas, como Aprendizagem de Máquina, Lógica Fuzzy e discretização de dados são utilizadas na identificação dos atributos mais relevantes para formação dos grupos e dos intervalos de valores associados a eles. Esse trabalho apresenta um modelo de rotulação de grupos baseado no uso de regressão para delimitação de intervalos de valores dos atributos que revelem os pares atributo-intervalo que melhor resumem os grupos. A relevância de um atributo para o agrupamento é determinada pelos intervalos de valores dos atributos em que o erro de predição da regressão é mínimo, baseado na análise de resíduos da regressão que tenta identificar os intervalos dos atributos em que a existência de observações influentes seja a menor possível. O modelo proposto foi utilizado na rotulação das bases de dados da literatura disponíveis no repositório UCI: Íris, Sementes, Vinhos, Vidros, Câncer de Mama e Parkinson, e avaliado pelos critérios: Taxa de Concordância, que analisa a proporção de elementos dos grupos representados pelos rótulos, e Taxa de Erro, que considera a proporção dos elementos dos demais grupos representados pelos rótulos, medidas a serem maximizada e minimizada, respectivamente. Os resultados obtidos nos experimentos mostram que o modelo é eficaz em rotular os grupos, apresentando Taxa de Concordância média entre 0,93 e 1,0 para as bases de dados utilizadas, superando os modelos da literatura. Além disso, o modelo garante a especificidade dos rótulos, avaliada pelas Taxas de Erro entre 0,05 e 0,12 com desvio padrão de 0,05.

Download do Trabalho.