Skip to content

First Machine learning Challenge for pathogenicity prediction

Notifications You must be signed in to change notification settings

genomika/ml-challenge

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 

Repository files navigation

I Desafio Genomika de Machine Learning

##O problema

Com o advento do sequenciamento genético de nova geração (NGS), os testes genéticos estão se tornando cada vez mais acessíveis, inclusive para finalidades de diagnóstico clínico. Contudo, a quantidade de dados gerados representa um desafio para a comunidade médica, dada a quantidade de variantes (alterações genéticas) para serem analisadas e interpretadas. Os laboratórios clínicos que oferecem em seu menu exames de sequenciamento enfrentam um grande desafio atual quando encontram novas variantes ainda não relatadas e associadas a genes que tem correlação com a hipótese clínica do paciente. Há diversas bases de dados genéticos que catalogam milhares dessas variantes, porém a interpretação de uma variante nova (denovo) ainda não estudada é um desafio. Por exemplo, podemos considerar o exame de exoma completo (WES) que analisa cerca de 22 mil genes do ser humano nas regiões codificantes e que resultam em torno de dezenas de milhares de variantes. Analisar tais variantes exige que o especialista entenda o impacto desta variante no fenótipo do paciente. Outro problema é a interpretação de uma variante quanto à sua patogenicidade pode diferir muito entre analistas, resultando em inconsistências. Há um consenso na comunidade de clínica genética de esforços para criar guias e padrões para classificação destas variantes. Na Genomika Diagnósticos realizamos exames genéticos que cobrem desde uma simples alteração, genes e até painéis de genes, onde nossos analistas analisam toda esta massa de dados em busca de variantes patogênicas que expliquem o diagnóstico do paciente.

Estudos revelam que já que o ser humano carrega na média em torno de 88 milhões variantes e que apenas 1-5% destas variantes já tiveram algum estudo clínico publicado, isto é, maior parte das variantes encontradas ainda necessitam de uma análise minuciosa do analista para interpretação e classificação da variante, o que dispensa um tempo de análise considerável se o mesmo não tiver posse das ferramentas e informações necessárias. Visto os desafios apresentados acima, é notável que a proposta de ferramentas que possam analisar os metadados e anotações de variantes previamente estudadas possam ser úteis para predizer a patogenicidade de uma nova variante, visto que diversas destas variantes compartilham regiões gênicas (vizinhas) e ou podem alterar a conservação da proteína.

Como uma proposta inicial, nós da Genomika Diagnósticos estamos lançando este piloto de um desafio de aprendizagem de máquina, convidando os alunos para que eles possam aprender sobre as disciplinas de mineração de dados e aprendizagem de máquina na prática com um problema real da indústria. A proposta deste desafio é que ao final do mesmo, os alunos possam propor modelos ou heurísticas baseados em aprendizagem de máquina ou estatística para predição de classificação de variantes.

Os alunos aproveitarão para poder aprender mais sobre a biologia humana aplicada na saúde pública e ter o contato inicial com a disciplina de informática ainda pouco divulgada: bioinformática. Nós iremos prover os dados para que os alunos possam propor, construir e testar seus modelos com uma base de variantes separadas pelo nossos bioinformatas. As soluções apresentadas pelos times não serão logo usadas em nossa produção, visto que a base foi montada para cobrir apenas um conjunto de variáveis que possam explicar minimamente o impacto da variante, então o foco do desafio é muito mais para fins didáticos e atrair possíveis talentos que se interessem pela temática de aplicar computação inteligente na biologia.

##Os dados

##Avaliação

a) a apresentado a solução em cima de nossa base de testes com melhor resultado baseado na curva ROC e b) Avaliação do professor em conjunto com nosso time técnico sobre a escolha do modelo e apresentação dos resultados obtidos. A nota final composta por estes críterios será ordenada em um ranking.

##Prazos

##Prêmio

Para o time/equipe tiver a maior nota final considerando os quesitos técnicos apresentados no tópico Avaliação terá a oportunidade de realizar uma visita em nosso laboratório técnico e conhecer toda nossa bioinformática de perto e ver como um exame genético é realizado (agendado com monitoria do professor e responsável do laboratório).

##Quem é a Genomika Diagnósticos ?

Genomika Diagnósticos http://www.genomika.com.br é um dos pioneiros laboratórios do Brasil a trazer tecnologia de sequenciamento genético de nova geração (nextgen) para a identificação, análise e diagnóstico de doenças raras, além de contar com vários outros tipos de exames genéticos voltados para análise clínica.

A Genomika situa-se em Recife, Pernambuco uma das capitais que posuem um dos maiores pólos tecnológicos do Brasil em conjunto com um dos mais modernos pólos clínicos do Norte-Nordeste. No coração do centro clínico do Recife, o laboratório atende hospitais, laboratórios parceiros e pacientes de todo o Brasil contando com mais de 150 tipos de testes genéticos disponíveis no mercado.

Formado por um time de especialistas em suas áreas (biomédicos, médicos, bioinformatas), trabalhamos com as tecnologias e equipamentos mais modernos voltados para testes genéticos. Especialmente no time de bioinformática, que precisa lidar constantemente com ferramentas, plataformas e equipamentos responsáveis por manipular grandes massas de dados a partir do DNA sequenciado e bases de dados de doenças genéticas.

Logo grandes volumes de dados exigem processos e desenvolvimento de ferramentas de alto desempenho e especializadas para auxiliar a nossa equipe de analistas na sua análise clínica. Big Data voltado para saúde é o que também fazemos aqui na Genomika. Portanto fazer parte de nosso time é estar alinhado com pessoas de várias formações fazendo o melhor que fazem em suas áreas com o objetivo de possibilitar a milhões de brasileiros o acesso a informação detalhada e profunda sobre seu corpo e auxiliá-los nas suas escolhas sobre a sua vida e saúde.

Em nosso setor de T.I e bioinformática trabalhamos com desenvolvimento de sistemas de suporte ao diagnóstico de doenças, análises de dados e ferramentas de gestão laboratorial hospedados em servidores de alto desempenho local e remoto fora do Brasil.

ScreenShot

About

First Machine learning Challenge for pathogenicity prediction

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published