Teste Bioinformatica 2021

Teste técnico para processo seletivo Genomika-Einstein

Descrição

Neste teste você deverá construir um pipeline de bioinformática usando linguagem do seu interesse (shell script, r , python, etc) para detecção e anotação de variantes oriundos de dados brutos de NGS DNASeq. Os dados são de uma amostra de controle humano de sexo feminino. Neste teste você deverá desenvolver o pipeline seguindo as seguintes etapas:

Alinhamento das sequências de DNA (FASTQs)
Chamada e detecção de variantes SNVs e INDELs
Anotação de Variantes

Instruções

Realize o fork deste projeto para que crie um espelho em seu repositório (ex: github.com/marcelcaraciolo/bioinfotest) github. Mais instruções de como fazer o fork aqui.
Os dados brutos das amostras se encontram on-line será necessário realizar o download das mesmas. Elas estão em formato FASTQ.gz. Instruções de como baixar os fastqs estão na pasta data - data_files_download.sh
Coloque todo o código realizado dentro da pasta code e os resultados coloque numa pasta output (Arquivos BAM, SAM, VCF, Arquivo de respostas).
Há um questionário de perguntas dentro da pasta output com nome QUESTION.txt , responda as perguntas dentro do arquivo, salve e commit dentro do seu repositório quando concluído. Estas respostas são obrigatórias e farão parte de sua avaliação técnica.
Não vamos precisar executar o código aqui localmente do seu pipeline, mas vamos querer ver como você realizou todo o processo desde o alinhamento até a chamada de variantes, portanto fica claro que não serão aceitas soluções em plataformas on-line automatizadas de pipeline como Galaxy, etc. O seu código pode ser colocado em um ou mais arquivos, fica à seu critério de como organizar o código do pipeline.
Iremos utilizar o genoma de referência da UCSC hg19.fasta para alinhamento e chamada de variantes, para auxiliar o processo deixamos o link aqui dos arquivos necessários para esta etapa.
Para as etapas de processamento , nossa recomendação de ferramentas são:
- BWA (http://bio-bwa.sourceforge.net/) para etapa de alinhamento
- FreeBayes (https://github.com/freebayes/freebayes) para etapas de chamada de variantes. Será necessário enviar um parâmetro com o arquivo das regiões-alvo de interesse (--target) , para que ele não rode o algoritmo de detecção em todo o genoma humano. Disponibilizamos o arquivo de regiões neste repositório em data: BRCA.list.
- snpeff para anotação funcional das variantes (https://pcingola.github.io/SnpEff/)
Para agilizar o desenvolvimento, criamos um arquivo Dockerfile a partir do sistema docker (https://www.docker.com/) contendo os arquivos necessários para a prova e já com os programas instalados, se seguir por este caminho poderá economizar um enorme tempo! Para facilitar após instalar o docker criamos o arquivo run_test.shque ao ser executado no terminal, já realiza o build da imagem do Dockerfile e já faz um ssh com a máquina. Rode a partir do diretório bioinfotest. Para baixar os arquivos de amostra e fasta do genoma humano versao 19, rode dentro da pasta datao comando data_files_download.sh

Resultados Esperados

Vamos precisar que sejam enviados os arquivos: BAM file com os alinhamentos, o BAI file (arquivo de índice), o VCF file (arquivo de variantes) e o arquivo anotado em formato VCF.
O arquivo QUESTION.txt dentro da pasta output preenchido com as respostas embaixo de cada quesito.
Para facilitar ao terminar o seu teste, commit todo o seu projeto no seu respositório forkeado (bifurcado) e nos envie o link do seu repositório junto a resposta do seu teste admissional.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Teste Bioinformatica 2021

Teste técnico para processo seletivo Genomika-Einstein

Descrição

Instruções

Resultados Esperados

About

Releases

Packages

Contributors 2

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
data		data
output		output
Dockerfile		Dockerfile
README.md		README.md
run_test.sh		run_test.sh

genomika/bioinfotest

Folders and files

Latest commit

History

Repository files navigation

Teste Bioinformatica 2021

Teste técnico para processo seletivo Genomika-Einstein

Descrição

Instruções

Resultados Esperados

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages