Rotulação Automática de Grupos com Árvores de Decisão: Uma Abordagem Comparativa

Dissertação de Mestrado
Aluno: Manoel Messias Pereira Medeiros

Resumo: O volume exponencial de dados impulsiona o crescimento da análise de dados. O agrupamento de dados é uma técnica importante, mas a interpretação dos grupos pode ser desafiadora. A rotulação automática de grupos com árvores de decisão pode ajudar a resolver este problema. Afim de se validar este modelo de rotulação automática de grupos com uso de árvores de decisão este trabalho apresenta uma comparação entre quatro algoritmos de árvore de decisão no contexto da rotulação automática de grupos.

Inicialmente, destaca-se a importância dos modelos de rotulação de grupos como ferramentas para auxiliar especialistas na interpretação de dados, fornecendo uma definição concisa das principais características dos grupos. A escolha do algoritmo de árvore de decisão impacta significativamente na performance do modelo, conforme demonstrado em um estudo comparativo utilizando os algoritmos ID3, C4.5, CART e CHAID. Os resultados revelaram que o algoritmo CHAID obteve os melhores resultados nas bases Íris e Sementes, enquanto o algoritmo C4.5 foi mais eficaz nas bases Vinho e Vidros. As taxas de concordância do algoritmo de melhor desempenho em cada base se aproximaram ou superaram a média encontrada na literatura. A validade do modelo de rotulação automática de grupos foi confirmada, destacando a importância da escolha criteriosa do algoritmo de árvore de decisão.Os resultados deste estudo ressaltam o potencial dos modelos de rotulação automática de grupos e a relevância da seleção adequada do algoritmo de árvore de decisão.

Pesquisas futuras são essenciais para aprimorar o modelo e expandir suas aplicações, contribuindo para diversos campos, como descoberta de padrões em bancos de dados, identificação de grupos em estudos de bioinformática e segmentação de mercado-alvo com
necessidades semelhantes.

Download do Trabalho

Avaliação de modelos preditivos baseados em aprendizagem de máquina no contexto da evasão escolar considerando um cenário multicampi

Dissertação de Mestrado
Aluno: Francisco Alysson da Silva Sousa

Resumo: A evasão escolar e os fatores diversos relacionados a esse comportamento despontam como um dos grandes desafios ao pleno desenvolvimento da educação. No contexto nacional, estima-se que 27% do número total de alunos matriculados não concluem o percurso formativo previsto nas respectivas ofertas. Delimitando-se na proposta da Rede Federal de Educação Profissional, Científica e Tecnológica (RFEPCT), especificamente na Educação Profissional Técnica de Nível Médio (EPTNM) ofertada no Instituto Federal do Piauí(IFPI), esse estudo identificou um alarmante decréscimo no número de concluíntes que já supera os 47% no percentual acumulado nos últimos 5 (cinco) anos, conforme estatísticas oficiais apresentadas na Plataforma Nilo Peçanha (PNP). Assim, a identificação de forma prévia da tendência a esse comportamento certamente contribui como subsídio para o direcionamento de estratégias de enfrentamento. Nesse sentido, o uso da inteligência artificial, especificamente na subárea aprendizado de máquina, apresenta-se como importante recurso preditivo de apoio à gestão educacional. É nessa perspectiva que se define a proposta deste trabalho em avaliar classificadores quanto a ocorrência de evasão no âmbito do ensino técnico multicampi, para tanto, foram aplicados os algoritmos de Decision Tree (DT), Random Forest (RF), Gradient Boost (GB), Multi-Layer Perceptron (MLP) e Support Vector Machine (SVM).

Os modelos utilizados foram submetidos a análises comparativas a partir de estudos de casos com dados extraídos da PNP, sistema do Ministério de Educação alimentado e validado diretamente pelas instituições. Os resultados dos modelos melhor avaliados (DT e RF) apresentam médias superiores a 90% quando consideradas todas as unidades da instituição em testes segmentados e agrupados destacando ainda uma tendência de evolução nas performances que favorece o potencial escalável da proposta a toda a rede. Os valores obtidos avaliam a sensibilidade e a precisão com suas relevâncias equiparadas e resumidas pela métrica F-score.

Download do Trabalho

Modelo de Predição de Dados Clínicos em Pacientes com Calazar baseado em Aprendizagem de Máquina

Vigência: 2024-2025

Financiamento: Chamada Nº 16/2023 – Saúde de Precisão – CNPq – SUS

Resumo: O calazar ( leishmaniose visceral) nas Américas é causada pelo protozoário Leishmania infantum transmitido pela picada de flebotomíneos fêmeas infectadas do gênero Lutzomyia.. A literatura tem evidenciado que pessoas com calazar apresentam desnutrição proteico-calórica e deficiência de micronutrientes, mas não está esclarecido se a desnutrição seria um fator de risco para a aquisição da infecção, se seria consequência do processo consumptivo prolongado e se estaria associada ao prognóstico. No entanto, a ausência de dados clínicos devido a deficiência de exames mais precisos e específicos pode prejudicar o diagnóstico. OBJETIVO: Criar um modelo preditivo baseado em Aprendizagem de Máquina (AM) para inferir dados clínicos ausentes, além de estimar prognósticos do avanço das intervenções em pacientes com calazar.  METODOLOGIA: Estudo transversal com pessoas admitidas no Instituto de Doenças Tropicais Natan Portela (Teresina-Pi) com sintomas sugestivos de calazar e com diagnóstico laboratorial. Foram incluídos indivíduos de ambos os sexos, com idade acima de seis meses. Serão realizados experimentos utilizando diversos tipos de algoritmos de AM visando alcançar as melhores taxas preditivas para estimar valores de dados clínicos inexistentes. INOVAÇÃO: A predição de valores baseados em AM em um ambiente de diagnóstico clínico possui caráter tecnológico e inovador, pois pode ajudar a melhorar a qualidade do atendimento ao paciente, reduzir erros e aumentar a eficiência do sistema de saúde. Uma plataforma eletrônica para auxílio à diagnóstico pode ajudar a garantir que os profissionais de saúde tenham acesso às informações do paciente, incluindo histórico médico, resultados de exames e outros dados importantes. RELEVÂNCIA: A inteligência artificial pode ser usada para analisar dados do paciente, como histórico médico, resultados de exames e outros fatores, para ajudar a determinar a gravidade da condição do paciente e a urgência do atendimento necessário. Isso pode ajudar os profissionais de saúde a tomar decisões mais informadas sobre como priorizar o atendimento aos pacientes. Além do mais, a inteligência artificial pode ser usada para ajudar a identificar padrões nos dados do paciente que possam indicar problemas de saúde subjacentes ou riscos futuros, neste caso, oriundos do calazar das Américas.

Link para o site do projeto

Participação no Programa Estúdio Interativo da TV Assembleia (PI)

O jornalista e apresentador André Linhares recebe o doutor em computação Vinicius Machado e o doutor em Direito Éfren Cordão. Ambos abordam a inteligência artificial: inovações, potenciais e desafios, que desde a sua criação, na década de 1950, percorre um longo caminho evolutivo. Inicialmente era apenas uma teoria que fascinava cientistas da computação e acadêmicos.