Rotulação Automática de Grupos Baseada em Algoritmos Supervisionados

Vigência: 2017-2018

Resumo: Frente ao problema de compreender clusters – isto é, de encontrar uma definição ou em outras palavras, um rótulo – este projeto propõe uma definição para esse problema, denominado problema de rotulação, além de uma solução baseada em técnicas com aprendizagem supervisionada, não-supervisionada e um modelo de discretização. Dessa forma, o problema é tratado desde sua concepção: o agrupamento de dados. Para isso, um método com aprendizagem não-supervisionada é aplicado ao problema de clustering e então um algoritmo com aprendizagem supervisionada irá detectar quais atributos são relevantes para definir um dado cluster.
Finalmente, o objetivo desse projeto consiste em apresentar uma abordagem, baseados em algoritmos de aprendizagem de máquina supervisionados, capaz de rotular clusters a fim de esclarecer, orientar e ajudar um especialista. Os rótulos gerados devem ser capazes de identificar as principais características – bem como seus conjuntos de valores – responsáveis pela definição de um determinado cluster.

Descoberta de Conhecimento através de Métodos de Aprendizagem de Máquina aplicados a Base de Dados Acadêmicas dos cursos de Graduação da Universidade Federal do Piauí.

Vigência: 2018-2019

Resumo: Os cursos superiores de graduação tiveram um grande crescimento quantitativo na última década. Frente a esse crescimento, surge a preocupação com a qualidade do ensino e consequentemente com a performance acadêmica dos alunos. Para gerenciar o crescimento e acompanhar o desempenho dos alunos, as universidades passaram a contar com ferramentas de TI para o gerenciamento de informações acadêmicas do corpo docente.
O SIGAA (Sistema Integrado de Gestão de Atividades Acadêmicas) informatiza os procedimentos da área acadêmica através dos módulos de: graduação, pós-graduação (stricto e lato sensu), ensino técnico, ensinos médio e infantil, submissão e controle dos projetos de ensino (monitoria e inovações), registro e relatórios da produção acadêmica dos docentes, atividades de ensino a distância e um ambiente virtual de aprendizagem denominado Turma Virtual. Atualmente o SIGAA está presente em mais de 29 universidades públicas do Brasil, incluindo a Universidade Federal do Piauí. Através do portal do discente os alunos têm acesso às turmas virtuais do AVA (Ambiente Virtual de Aprendizagem), nas quais são armazenadas uma grande quantidade de informações, dentre elas fóruns de discussão, listas de exercícios e trabalhos produzidos nas disciplinas. Acumulam, portanto, muitas informações já que todas as atividades do aluno encontram-se armazenadas em um banco de dados (BD), geridas pelos SIGAA. Essas informações após mineradas podem ser bastantes úteis para a evolução do desempenho acadêmico dos aluno, já que a identificação de padrões auxiliam na tomada de decisões em relação a melhorias no processo de ensino-aprendizagem.
Com o intuito de identificar os perfis dos estudantes dessa modalidade educacional, especialmente dos cursos de graduação, o presente trabalho propõe um processo de descoberta de conhecimento através de métodos de Aprendizagem de Máquina (AM) supervisionados e não supervisionados aplicados ao ensino superior, mais especificamente à base de dados do SIGAA da Universidade Federal do Piauí (UFPI).
Neste processo de descoberta de conhecimento, pretende-se realizar a identificação de perfis do corpo docente a partir de uma correlação entre os indicativos acadêmicos e os aspectos sociais desses alunos. Os perfis descobertos tendem a auxiliar os gestores do sistema de educação a distância na tomada de decisões em relação a melhorias no processo de ensino-aprendizagem já que, através da mineração de dados, teve-se uma ideia do desempenho do aluno, ao mostrar que a deficiência acadêmica possui correlações com aspectos sociais. A partir dessas informações é possível definir-se estratégias diferenciadas em relação a esses alunos.

Uso de Técnicas de Aprendizagem de Máquina aplicadas no Diagnóstico de Patologias Renais

Vigência: 2019-2020

Resumo: A interpretação de imagens de tecidos e células em uma resolução maior do que o olho humano nu é o cerne da patologia. Durante muito tempo, o microscópio foi o único instrumento disponível para isto, fornecendo imagens com aumento da resolução por óticas cada vez melhores.
Durante as ultimas décadas, a forma de visualizar a patologia mudou gradualmente pela introdução de câmeras digitais que produzem imagens fixas e câmeras de vídeo montadas no microscópio que permitem a análise ao vivo das lâminas.
Estas imagens estáticas ou dinâmicas podem ser transferidas por meio de conexões de rede para locais remotos a ser avaliado por outro patologista, comumente chamado telepatologia. Existem ainda escâneres de laminas que produzem imagens integrais de slides (WSI – Whole-Slide Imaging, também chamados de lâminas digitais ou virtuais) combinando as vantagens de imagens de câmeras ao vivo (acesso de lâminas inteiras) e câmeras digitais (alta resolução).
WSI são exploradas usando um visor de imagens, permitindo que o exame de lâminas digitais tenha algumas vantagens quando comparada à análise por um microscópio convencional. Primeiro, as WSI podem ser exploradas em diferentes ampliações. Em segundo lugar, a movimentação das lâminas em qualquer sentido é possível. Em terceiro lugar, alguns scanners permitem a digitalização de mais de um plano de foco, assim permitindo uma resolução melhor.
A biópsia renal é o padrão ouro no diagnóstico de doenças renais. Isso implica na presença do patologista especialista e estrutura laboratorial adequada, potencializando as diferenças de acesso e impactando na condução do paciente Os exames de imagem ajudam a localizar a lesão, quando esta é a patologia renal a ser ivestigada, e são extremamente úteis para determinar a extensão da doença, auxiliando no estadiamento de neoplasias malignas renais.
Neste cenário, métodos computacionais para processamento e análise de imagens de lesões em diversos órgãos têm sido estudados e desenvolvidos para auxiliar os profissionais da área médica. Esses métodos pretendem possibilitar ao profissional uma facilidade e rapidez em relação ao diagnóstico da patologia através da interpretação de imagens médicas. Neste projeto é proposto um método computacional visando auxiliar os médicos patologistas no diagnóstico de lesões renais (neoplásicas e não neoplásicas) por meio de imagens de lâminas do arquivo de instituições que realizem biópsias renais na rotina.

Descoberta de Conhecimento através de Métodos de Aprendizagem de Máquina aplicados a Base de Dados de compatibilidade HLA (Human Leukocyte Antigen)

Vigência: 2020-2021

Resumo: A compatibilidade entre o par doador e um candidato a transplante de órgãos ou tecidos depende da identidade da molécula HLA, considerada como o principal antígeno no transplante. O doador ideal, portanto, é aquele cujas moléculas HLA expressas em suas células são também compartilhadas pelo receptor. Entretanto, essa condição é rara e, na maioria das vezes, o transplante é realizado com grandes diferenças, acarretando ativação do sistema imune do receptor, tornando-o sensibilizado para os antígenos HLA, favorecendo a ocorrência de rejeição do enxerto, menor sobrevida e dificuldade para identificar um novo doador compatível. A análise epitópica foi possível graças ao surgimento do painel de reatividade. Porém, algumas análises são definidas por um especialista, que é um profissional escasso nos laboratórios de histocompatibilidade. Adicionalmente, diferentes analistas podem produzir diferentes resultados, pois não há um protocolo padrão para a análise epitópica.
Diante desse cenário, a aprendizagem de máquina apresenta-se como uma solução viável e robusta para o problema de compatibilidade, pois é capaz de simular o pensamento dos especialistas, além de encontrar padrões não lineares e até então desconhecidos entre as observações já feitas. Portanto, este trabalho tem como objetivo realizar um processo de descoberta de conhecimento através de métodos de Aprendizagem de Máquina (AM) aplicados à base de dados de análises epitópica referentes a painéis de reatividade do tipo Single Antigen de classe I de pacientes em lista de espera por um transplante renal para identificação de perfis receptores/doadores.

Ensemble de Algoritmos de Rotulação Automática de Grupos

Vigência: 2021-2022

Resumo: O problema de agrupamento (clustering) tem sido considerado como um dos problemas mais relevantes dentre aqueles existentes na área de pesquisa de aprendizagem não-supervisionada (subárea de Aprendizagem de Máquina). Embora o desenvolvimento e aprimoramento de algoritmos que solucionam esse problema tenha sido o principal foco de muitos pesquisadores o objetivo inicial se manteve obscuro: a compreensão dos grupos formados. Tão importante quanto a identificação dos grupos (clusters) é sua compreensão e definição. Uma boa definição de um cluster representa um entendimento significativo e pode ajudar o especialista ao estudar ou interpretar dados. Portanto, existe a necessidade de descobrir o que caracteriza cada cluster formado. A existência de um rótulo permite a identificação de quais características definem um grupo. Diversas propostas de métodos de rotulação foram desenvolvidas no âmbito do LINA (Laboratório de INteligência Artificial) da UFPI. Cada um utiliza uma técnica diferente tais como: uso de redes neurais, Fuzzy C-means, uso de Interdependência Classe-Atributo, graus de pertinência de grupos e erro de regressão. Acredita-se que com a combinação dos métodos até agora propostos, podemos chegar a uma rotulação de melhor qualidade do que quando aplicados individualmente. Baseado neste conceito, o objetivo desse projeto consiste em apresentar uma abordagem, baseados em ensemble, capaz de combinar as diferentes técnicas de rotulação já consolidadas com o objetivo melhor realizar o processo de rotulação.