Практикум 11.Поиск полиморфизмов у человека.

В директорию /nfs/srv/databases/ngs/kurkino были скачаны файл с ридами chr11.fastq и файл с хромосомой chr11.fasta.
Таблица
Команда Описание
hisat2-build chr11.fasta indexed Индексирует референсную последовательность.
fastqc chr11.fastq Контроль качества чтения chr11.fastq с помощью программы FastQC.
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar
SE -phred33 chr11.fastq outfile.fastq TRAILING:20 MINLEN:50
Программа Trimmomatic очищает чтения. В данном задании требовалось убрать с каждого конца чтения нуклеотиды с качеством ниже 20 и оставить чтения длиной не меньше 50 нуклеотидов.
fastqc outfile.fastq Контроль качества чтений, прошедших триммирование.

1.Контроль качества чтений до очистки

Oops

2.Контроль качества чтений после очистки

Oops

После обработки trimmomatic количество ридов уменьшилось (c 4198 до 4064, т.е. были удалены риды, имеющие длину от 30 до 50 нуклеотидов, осталось 96,81% от всех ридов). Так как после работы программы все риды располагаются в зеленой области, можно сказать, что мы получили надежные прочтения.

Картирование чтений.

Для начала я проиндексировала референсную последовательность с помощью команды hisat2-build:

У меня получился набор из 8 файлов.

В следующей команде также использовался файл, полученный путем очистки чтений программой Trimmomatic:

Сама команда для построения выравнивания прочтений и референса:

Опция -х указывает на проиндексированную базу, -U - на файл с ридами, -S - на выходной файл с выравниванием. В результате работы был создан файл с выравниваниями chr11.sam

Oops

Информация на консоли говорит о том, что из 4198 ридов 83(1.98%) не выровнялись вообще, 4115(98.02%) выровнялись на один участок референса. Как оказалось, среди моих ридов нет тех, которые выравниваются более чем 1 раз.

Анализ выравнивания.

Перевод выравнивания чтений с референсом в бинарный формат был выполнен с помощью команды: samtools view -b chr11.sam > chr11.bam "Опция -b Output in the BAM format. " "Опция -S Раньше эта опция была необходима, если ввод был в формате SAM, но теперь правильный формат автоматически определяется путем изучения первых нескольких символов ввода. " Сортировка чтений с референсом с помощью команды samttols sort и опциями -T и -O: samtools sort chr11.bam -T sor.txt -o sor.bam Файл с упорядоченными ридами был проиндексирован: samtools index sor.bam

Oops

По результатом работы программы samtools flagstat chr11.sam можно сделать вывод, что откартировались 4115 ридов, что совпадает с результатом, выданным программой Hisat2.

Поиск snp и инделей

Команда для создания файла с полиморфизмами: samtools mpileup -uf chr11.fasta chr11.bam -o chr11.bfc "-o Запишите вывод в файл, а не стандартный вывод по умолчанию. " Команда для создания файла в формате .vcf: bcftools call -cv chr11.bfc -o chr11.vcf Этот формат более удобен для чтения, на каждой строке указан одна замена, и после нее идет перечисление разных ее характеристик.
Таблица 2
POS-координата REF-референс ALT-риды INFO-тип DP-глубина покрытия QUAL-качество ридов
17408305 G C SNP(трансверсия) 14 103.008
116620085 T C SNP(транзиция) 1 11.3429
116628401 T C SNP(транзиция) 92 188.009
Обнаружено 10 полиморфизмов, причем все из них snp.

Аннотация SNP.

Далее необходимо было аннотировать полученные SNP(так как инделей в моих полиморфизмах не было). Аннотирование выполнялось с помощью программы ANNOVAR с использованием баз данных: refgene, dbsnp, 1000 genomes, GWAS, Clinvar. Для начала я конвертировала файл для работы программы. Использованная команда: convert2annovar.pl chr11.vcf -format vcf4 -outfile chr11.avinput

Oops

Формат "annovar" содержит по порядку: обозначение хромосомы, координату по хромосоме, координаты по чтению, произошедшую замену, качество чтения и покрытие в данной позиции. Среднее качество чтения составляет:103.888 Среднее покрытие:21.2 Как минимум у 4х полиморфизмов очень низкое качество и глубина в одно прочтение. Это говорит о том, что это не настоящие полиморфизмы, а просто ошибка секвенирования. Аннотация по базам данных запускалась командами в той же папке, поэтому для входного файла указывалсь только его название, а для обращения к базе данных, лежащей в другой папке, указывался полный путь.
Аннотация
Команда Вывод Пояснение
annotate_variation.pl -filter -out dbnsp.snp -build
hg19 -dbtype snp138 chr11.avinput /nfs/srv/databases/annovar/humandb.old/
1.dbnsp.snp.hg19_snp138_dropped
2.dbnsp.snp.hg19_snp138_filtered
3.dbnsp.snp.log
1. В файле те замены, которые содержат rs в базе snp138, то есть имеют идентификатор в SNP. (9)
2. В файле замены, которых нет в базе snp138 (не имеют идентификатора rs). (1)
3. Комментарии к работе программы.
annotate_variation.pl -filter -out 1000genomes -build hg19 -dbtype 1000g2014oct_all chr11.avinput /nfs/srv/databases/annovar/humandb.old/ 1. 1000genomes.hg19_ALL.sites.2014_10_dropped - содержит полиморфизмы, имеющие rs в 1000 genomes, и их частоты.
2. 1000genomes.hg19_ALL.sites.2014_10_filtered -содержит полиморфизмы, не имеющие rs в 1000 genomes.
3. 1000genomes.log - содержит отчет о работе команды.
1. Cодержит замены, имеющие rs в базе данных 2014 года 1000 genomes, и столбец с их частототами.(9)
2. Cодержит замены, не имеющие rs в 1000 genomes. (1)
3. Содержит отчет о работе команды.
annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog chr11.avinput /nfs/srv/databases/annovar/humandb.old/ 1.gwas.hg19_gwasCatalog
2.gwas.log
1. Содержится 4 строки с 4мя заменами пациента, которые есть в базе gwas Catalog. В файле записываются только названия ассоциированной с полиморфизмом болезни: 2 diabetes, Triglycerides, Triglycerides-Blood Pressure (TG-BP).
2.Содержит отчет о работе команды.
annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 -out clinvar chr11.avinput /nfs/srv/databases/annovar/humandb.old/ 1. clinvar.hg19_clinvar_20150629_dropped
2. clinvar.hg19_clinvar_20150629_filtered
3. clinvar.log
1. Содержит SNP с известным клиническим значением. Permanent neonatal diabetes mellitus (Неонатальный сахарный диабет)
2.Содержит замены, не имеющие rs в Clinvar.
3.Содержит отчет о работе команды.
/nfs/srv/databases/ngs/kurkino$ annotate_variation.pl -out refgene -build hg19 chr11.avinput /nfs/srv/databases/annovar/humandb.old/ 1.refgene.variant_function - содержит описание всех полиморфизмов. 2.refgene.exonic_variant_function - содержит описание полиморфизмов внутри экзонов. 3.refgene.log - содержит отчет о работе команды. 1.Содержит сами замены с указанием, в каком экзоне\интроне находится замена. Все мутации разделены на группы: exonic (2), intronic (5), UTR3(3).
exonic - полиморфизм внутри экзона (частично или полностью)
UTR3 - полиморфизм полностью или частично входит в 3-нетранслируемую область
intronic - полиморфизм полностью или частично внутри интрона
2.Содержит только мутации в экзонах, для них указано, являются они синонимическими или нет. В этом файле 2 строки, то есть нашлось 2 замены, лежащие в экзонах.
3.Содержит отчет о работе команды.

Мои Snp попали в 2 гена: KCNJ11, BUD13. В файле refgene.exonic_variant_function содержитсы информаци о двух nonsynonymous SNV (приводит к замене аминокислоты) заменах.