Descoberta de Conhecimento através de Métodos de Aprendizagem de Máquina aplicados a Base de Dados Acadêmicas dos cursos de Graduação da Universidade Federal do Piauí.

Vigência: 2018-2019

Resumo: Os cursos superiores de graduação tiveram um grande crescimento quantitativo na última década. Frente a esse crescimento, surge a preocupação com a qualidade do ensino e consequentemente com a performance acadêmica dos alunos. Para gerenciar o crescimento e acompanhar o desempenho dos alunos, as universidades passaram a contar com ferramentas de TI para o gerenciamento de informações acadêmicas do corpo docente.
O SIGAA (Sistema Integrado de Gestão de Atividades Acadêmicas) informatiza os procedimentos da área acadêmica através dos módulos de: graduação, pós-graduação (stricto e lato sensu), ensino técnico, ensinos médio e infantil, submissão e controle dos projetos de ensino (monitoria e inovações), registro e relatórios da produção acadêmica dos docentes, atividades de ensino a distância e um ambiente virtual de aprendizagem denominado Turma Virtual. Atualmente o SIGAA está presente em mais de 29 universidades públicas do Brasil, incluindo a Universidade Federal do Piauí. Através do portal do discente os alunos têm acesso às turmas virtuais do AVA (Ambiente Virtual de Aprendizagem), nas quais são armazenadas uma grande quantidade de informações, dentre elas fóruns de discussão, listas de exercícios e trabalhos produzidos nas disciplinas. Acumulam, portanto, muitas informações já que todas as atividades do aluno encontram-se armazenadas em um banco de dados (BD), geridas pelos SIGAA. Essas informações após mineradas podem ser bastantes úteis para a evolução do desempenho acadêmico dos aluno, já que a identificação de padrões auxiliam na tomada de decisões em relação a melhorias no processo de ensino-aprendizagem.
Com o intuito de identificar os perfis dos estudantes dessa modalidade educacional, especialmente dos cursos de graduação, o presente trabalho propõe um processo de descoberta de conhecimento através de métodos de Aprendizagem de Máquina (AM) supervisionados e não supervisionados aplicados ao ensino superior, mais especificamente à base de dados do SIGAA da Universidade Federal do Piauí (UFPI).
Neste processo de descoberta de conhecimento, pretende-se realizar a identificação de perfis do corpo docente a partir de uma correlação entre os indicativos acadêmicos e os aspectos sociais desses alunos. Os perfis descobertos tendem a auxiliar os gestores do sistema de educação a distância na tomada de decisões em relação a melhorias no processo de ensino-aprendizagem já que, através da mineração de dados, teve-se uma ideia do desempenho do aluno, ao mostrar que a deficiência acadêmica possui correlações com aspectos sociais. A partir dessas informações é possível definir-se estratégias diferenciadas em relação a esses alunos.

Uso de Técnicas de Aprendizagem de Máquina aplicadas no Diagnóstico de Patologias Renais

Vigência: 2019-2020

Resumo: A interpretação de imagens de tecidos e células em uma resolução maior do que o olho humano nu é o cerne da patologia. Durante muito tempo, o microscópio foi o único instrumento disponível para isto, fornecendo imagens com aumento da resolução por óticas cada vez melhores.
Durante as ultimas décadas, a forma de visualizar a patologia mudou gradualmente pela introdução de câmeras digitais que produzem imagens fixas e câmeras de vídeo montadas no microscópio que permitem a análise ao vivo das lâminas.
Estas imagens estáticas ou dinâmicas podem ser transferidas por meio de conexões de rede para locais remotos a ser avaliado por outro patologista, comumente chamado telepatologia. Existem ainda escâneres de laminas que produzem imagens integrais de slides (WSI – Whole-Slide Imaging, também chamados de lâminas digitais ou virtuais) combinando as vantagens de imagens de câmeras ao vivo (acesso de lâminas inteiras) e câmeras digitais (alta resolução).
WSI são exploradas usando um visor de imagens, permitindo que o exame de lâminas digitais tenha algumas vantagens quando comparada à análise por um microscópio convencional. Primeiro, as WSI podem ser exploradas em diferentes ampliações. Em segundo lugar, a movimentação das lâminas em qualquer sentido é possível. Em terceiro lugar, alguns scanners permitem a digitalização de mais de um plano de foco, assim permitindo uma resolução melhor.
A biópsia renal é o padrão ouro no diagnóstico de doenças renais. Isso implica na presença do patologista especialista e estrutura laboratorial adequada, potencializando as diferenças de acesso e impactando na condução do paciente Os exames de imagem ajudam a localizar a lesão, quando esta é a patologia renal a ser ivestigada, e são extremamente úteis para determinar a extensão da doença, auxiliando no estadiamento de neoplasias malignas renais.
Neste cenário, métodos computacionais para processamento e análise de imagens de lesões em diversos órgãos têm sido estudados e desenvolvidos para auxiliar os profissionais da área médica. Esses métodos pretendem possibilitar ao profissional uma facilidade e rapidez em relação ao diagnóstico da patologia através da interpretação de imagens médicas. Neste projeto é proposto um método computacional visando auxiliar os médicos patologistas no diagnóstico de lesões renais (neoplásicas e não neoplásicas) por meio de imagens de lâminas do arquivo de instituições que realizem biópsias renais na rotina.

Descoberta de Conhecimento através de Métodos de Aprendizagem de Máquina aplicados a Base de Dados de compatibilidade HLA (Human Leukocyte Antigen)

Vigência: 2020-2021

Resumo: A compatibilidade entre o par doador e um candidato a transplante de órgãos ou tecidos depende da identidade da molécula HLA, considerada como o principal antígeno no transplante. O doador ideal, portanto, é aquele cujas moléculas HLA expressas em suas células são também compartilhadas pelo receptor. Entretanto, essa condição é rara e, na maioria das vezes, o transplante é realizado com grandes diferenças, acarretando ativação do sistema imune do receptor, tornando-o sensibilizado para os antígenos HLA, favorecendo a ocorrência de rejeição do enxerto, menor sobrevida e dificuldade para identificar um novo doador compatível. A análise epitópica foi possível graças ao surgimento do painel de reatividade. Porém, algumas análises são definidas por um especialista, que é um profissional escasso nos laboratórios de histocompatibilidade. Adicionalmente, diferentes analistas podem produzir diferentes resultados, pois não há um protocolo padrão para a análise epitópica.
Diante desse cenário, a aprendizagem de máquina apresenta-se como uma solução viável e robusta para o problema de compatibilidade, pois é capaz de simular o pensamento dos especialistas, além de encontrar padrões não lineares e até então desconhecidos entre as observações já feitas. Portanto, este trabalho tem como objetivo realizar um processo de descoberta de conhecimento através de métodos de Aprendizagem de Máquina (AM) aplicados à base de dados de análises epitópica referentes a painéis de reatividade do tipo Single Antigen de classe I de pacientes em lista de espera por um transplante renal para identificação de perfis receptores/doadores.

Ensemble de Algoritmos de Rotulação Automática de Grupos

Vigência: 2021-2022

Resumo: O problema de agrupamento (clustering) tem sido considerado como um dos problemas mais relevantes dentre aqueles existentes na área de pesquisa de aprendizagem não-supervisionada (subárea de Aprendizagem de Máquina). Embora o desenvolvimento e aprimoramento de algoritmos que solucionam esse problema tenha sido o principal foco de muitos pesquisadores o objetivo inicial se manteve obscuro: a compreensão dos grupos formados. Tão importante quanto a identificação dos grupos (clusters) é sua compreensão e definição. Uma boa definição de um cluster representa um entendimento significativo e pode ajudar o especialista ao estudar ou interpretar dados. Portanto, existe a necessidade de descobrir o que caracteriza cada cluster formado. A existência de um rótulo permite a identificação de quais características definem um grupo. Diversas propostas de métodos de rotulação foram desenvolvidas no âmbito do LINA (Laboratório de INteligência Artificial) da UFPI. Cada um utiliza uma técnica diferente tais como: uso de redes neurais, Fuzzy C-means, uso de Interdependência Classe-Atributo, graus de pertinência de grupos e erro de regressão. Acredita-se que com a combinação dos métodos até agora propostos, podemos chegar a uma rotulação de melhor qualidade do que quando aplicados individualmente. Baseado neste conceito, o objetivo desse projeto consiste em apresentar uma abordagem, baseados em ensemble, capaz de combinar as diferentes técnicas de rotulação já consolidadas com o objetivo melhor realizar o processo de rotulação.

Automatização do processo de modelagem de moléculas HLA

Vigência: 2020-2021

Resumo: Uma das maiores barreiras ao sucesso do transplante de órgãos sóloidos são as rejeições mediadas por anticorpos do receptor, dirigidos a moléculas HLA específicas do doador (DSA). Uma possível solução a essa problemática é o desenvolvimento de métodos que permitam predizer acuradamente o surgimento de tais rejeições. Com esse racional em mente, imunogeneticistas e bioinformatas tem somado esforços na tentativa de identificar tanto os anticorpos anti-HLA quanto os seus potenciais epítopos por eles reconhecidos nas suas moléculas alvo. Nesse sentido, alguns importantes avanços já foram alcançados, como por exemplo a determinação de potenciais alvos na estrutura primária de algumas moléculas. Sabe-se, porém, que determinantes antigênicos para anticorpos estão em configuração tridimensional ao invés de linear. Isso significa, que a conformação dos alvos antigênicos preditos, bem como a descrição daqueles ainda não determinados, exigem o conhecimento detalhado da estrutura tridimensional das proteínas HLA. Moléculas

HLA são o produto da expressão dos genes mais polimórficos que se conhece em humanos. De fato, somente para os genes HLA de classe I, são conhecidos atualmente 12631 alelos, um número que está em franca expansão, graças ao advento da nova tecnologia de sequenciamento de DNA, NGS (NewGeneration Sequencing). Do montante de moléculas HLA de classe I descritas, apenas um número muito pequeno possui estruturas cristalográficas determinadas. Além disso, da mesma forma que para moléculas HLA de classe I, moléculas HLA de classe II são também muito numerosas e possuem pouquíssimos alelos resolvidos cristalograficamente. O descompasso entre a necessidade de estruturas tridimensionais de alta qualidade de proteínas HLA (para a determinação de alvos de anticorpos anti-HLA) e a carência de tais estruturas nos bancos de dados atualmente disponíveis começou a ser enfrentada pela criação do banco de dados de estruturas tridimensionais preditas para as referidas moléculas HLA. Tal banco, cujo nome é pHLA3D (www.phla3d.com.br), foi desenvolvido por nosso grupo no laboratório de imunogenética e Biologia Molecular da UFPI (LIB-UFPI) e tem se mostrado muito valioso para a comunidade científica, figurando, por dois anos consecutivos entre os 10 artigos mais citados da revista em que foi publicado.

Embora a construção do pHLA3D tenha sido um passo muito importante para no que tange ao repositório de estruturas 3D de moléculas HLA, o número de tais estruturas que ele contém ainda é muito modesto. Para a forma esse repositório é utilizada a ferramenta Modeller. Para a construção do modelo molecular, o Modeller utiliza como molde uma ou mais proteínas que já têm um modelo tridimensional determinado e validado experimentalmente, depositado no PDB (do inglês, Protein Data Bank). Esse processo é feito de forma “manual” no qual o usuário tem que passar por diversas telas até que o modelo 3D seja gerado. Portanto, o objetivo deste trabalho é a automação desse processo através de agentes inteligentes (Russell & Norvig, 2000). Isso dará agilidade à ferramenta de modelagem e possibilitará o aumento significativo de moléculas tridimensionais modeladas no pHLA3D.