Практикум №13. Ресеквенирование и поиск полиморфизмов у человека.

Ресеквенирование. Поиск полиморфизмов у человека.

Часть 1. Подготовка чтения.

Для задания была взята 16-ая хромосома.
Для начала при помощи команды fastqc chr16.fastq был создан архив с данными о прочтении.
Также был создан html-файл, в котором содержится отчет о проделанной программой работе.

Рис.1 Качество нуклеотидов в чтениях до очистки. Число чтений 3965.

Далее требовалось провести очистку чтений от участков с плохим качеством.
Для этого использовались следующие команды:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr16.fastq trim1.fastq LEADING:20 - для удаления участков со скором меньше 20 из начала чтений;
java -jar /usr/share/java/trimmomatic.jar SE -phred33 trim1.fastq trim2.fastq TRAILING:20 - для удаления участков со скором меньше 20 из конца чтений;
java -jar /usr/share/java/trimmomatic.jar SE -phred33 trim2.fastq trim3.fastq MINLEN:50 - для удаления чтений длиной менее 50.

К полученному файлу была применена команда fastqc trim3.fastq: результат

Рис.2 Качество нуклеотидов после очистки. Число чтений 3796

Часть 2. Картирование чтений.

Очищенные чтения были картирован с помощью программы BWA. Сначала рeференсная последовательность была проиндексирована с помощью команды bwa index:

Рис.3. Результат bwa index.

Затем было произведено выравнивание референса с прочтениями:
bwa mem chr16.fasta trim3.fastq > align.sam. Полученный файл в формате sam: align.sam

Проанализируем полученное выравнивание:

samtools view -b align.sam -o aln.bam - Переведём его в бинарный формат;
samtools sort aln.bam out.predix - отсортируем по координате в референсе начала чтения;
Наконец, проиндексируем полученный файл: samtools index out.predix.bam, после чего мы, наконец, сможем узнать, сколько ридов было откартировано:

Рисю4 Число картированных ридов выделено синим, некартированных красным.

Часть 3. Анализ SNP.

Для поиска SNP и инделей использовались следующие команды:

samtools mpileup -uf chr16.fasta out.predix.bam > snp.bcf - создадим файл с полиморфизмами в формате .bcf
bcftools call -cv snp.bcf > snp.vcf - получаем файл со cписком полиморфизмов.

Всего было найдено 63 snp и 2 инделя. Из snp.vcf выбраны следующие полиморфизмы:

Полиморфизм с координатами 11348246 - индель (замена АСАСТСАСТС на АСАСТС), качество чтения - 10.8393, глубина - 5;
Полиморфизм с координатами 11348273 - замена Т на А, качество чтения 4.12853, глубина 11;
Полиморфизм с координатами 11361895 - замена C на G, качество чтения 225.009, глубина 50.

Далее я аннотировал все SNP, предварительно удалив все(2) индели, т.к. они нас не интересуют. Для этого использовалась программа annovar:

perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 snp2.vcf > converted.avinput - перевод файла snp2.vcf в формат, с которым может работать annovar.
perl /nfs/srv/databases/annovar/annotate_variation.pl -out RefGeneAnnotation -build hg19 converted.avinput //nfs/srv/databases/annovar/humandb/ - аннотация содержимого файла convert.avinput по базе данных RefGene (директория humandb) с помощью скрипта annotate_variation.pl (в директории annovar). Выдача представлена в двух формах: в файле variant_function собраны все SNP, а в exonic_variant_function - только SNP из экзонов.
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out SNP138Annotate -build hg19 -dbtype snp138 converted.avinput /nfs/srv/databases/annovar/humandb/ - аннотирует содержимое файла converted.avinput по базе данных snp138 из директории humandb с помощью скрипта annotate_variation.pl, находящемся в директории annovar. Проанализировав выдачу, можно узнать, что 57 snp имеют rs.
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_eur -buildver hg19 -out 1000gAnnotate converted.avinput /nfs/srv/databases/annovar/humandb/ - аннотирует содержимое файла converted.avinput по базе данных 1000 genomes с помощью скрипта annotate_variation.pl.
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -build hg19 -out gwasAnnotate -dbtype gwasCatalog converted.avinput /nfs/srv/databases/annovar/humandb/ - аннотирует содержимое файла converted.avinput по базе данных Gwas с помощью скрипта annotate_variation.pl.
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 converted.avinput -outfile snp_clinvar /nfs/srv/databases/annovar/humandb/ - аннотирует содержимое файла converted.avinput по базе данных Clinvar с помощью скрипта annotate_variation.pl.

После аннотации были получены следующие базы данных:

1000 genomes - Общая информация по полиморфизмам;
RefGene - Ген, в котором находится конкретный полиморфизм;
snp138 - Собственно, база snp;
Gwas - Связь между полиморфизмом и заболеванием;
Clinvar - Возможно, связь между полиморфизмом и фенотипом (в данном случае совпадений не было найдено).

Разброс частоты найденных SNP - от 14% до 99%
Категории на к-рые делятс SNP по RefGene: downstream, exonic, intergenic, intronic, upstream, UTR3, UTR5. Мутации попали в категории: intronic и exonic.
Гены в которые попали полиморфизмы - HERPUD1, PRM1, PRM2, PRM3, RMI1, RMI2, PRSS53, TNP2, SOCS1.

Была создана сводная таблица, которая содержит общую информацию (лист полиморфизмы) и данные о заменах аминокислот(лист замены АК).
Из всех данных можно сделать вывод, что пациент возможно имеет склонность к ожирением (частота 0.68) и имеет предрасположенность к метаболическому синдрому (частота 0.14) и к болезне Паркинсона (частота 0.37).