Ресеквенирование. Поиск полиморфизмов у человека.

Задание 1. Анализ качества чтений и их очистка

В качестве референсной последовательности мне была дана вторая хромосома человека. В ходе выполнения практикума было использовано множество команд, которые можно увидеть в таблице 1.

Таблица 1.
Список использованных команд
Команда Для чего была использована
hisat2-build chr2.fasta chr2 индексация референсной последовательности
fastqc chr2.fastq, fastqc chr2_2.fastq анализ качества чтения, дает информацию о количестве ридов и их качестве
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr2.fastq chr2_2.fastq TRAILING:20 MINLEN:50 были убраны все нуклеотиды с конца, имеющие качество прочтения ниже 20 и все риды, длина которых меньше 50
hisat2 -x chr2 -U chr2_2.fastq -S chr2_alignment.sam --no-spliced-alignment --no-softclip построение выравнивания референсной последовтельности и прочтения в формате sam. Параметры нужны именно такие, так как мы работаем с экзонами, поэтому мы запрещаем картировать с разрывами.-X - индексированная референсная последовательность, после -U указываем на файл с прочтениями, после S - название выходного файла.
samtools view -b chr2_alignment.sam -o chr2_alignment.bam перевод файла с выравниванием в бинарный файл с форматом .bam. -o - название выходного файла, -b - перевод файла в бинарный формат.
samtools sort chr2_alignment.bam chr2_sorted сортировка выравнивания чтений с референсом по координате начала чтения в референсе. Выходной файл - chr2_sorted.bam
samtools index chr2_sorted.bam индексирование сортированного предыдущей командой файла chr2_sorted.bam.bai
samtools mpileup -uf chr2.fasta -g -o poly.bfc chr2_sorted.bam создание файла с полиморфизмами в формате .bcf. -o (название выходного файла), -g (выдает файл в формате bfc).
bcftools call -cv poly.bfc -o poly.vcf переводим файл в более удобный для чтения человеком формат vcf. Получаем файл poly.vcf, который потом используем для описания трех полиморфизмов.
convert2annovar.pl -format vcf4 snp_only.vcf -o snp_only.avinput для дальнейшей работы с программой annovar переводим файл в читаемый для нее формат.
annotate_variation.pl -out refgene -build hg19 -dbtype refGene snp_only.avinput /nfs/srv/databases/annovar/humandb/ аннотация файла с snp по базе refgene.
annotate_variation.pl -filter -out snp138 -build hg19 -dbtype snp138 snp_only.avinput /nfs/srv/databases/annovar/humandb.old/ аннотация файла с snp по базе dbsnp.
annotate_variation.pl -filter -out 1000_genomes -build hg19 -dbtype 1000g2014oct_all snp_only.avinput /nfs/srv/databases/annovar/humandb.old/ аннотация файла с snp по базе 1000 genomes.
annotate_variation.pl -filter -out gwas -build hg19 -dbtype gwasCatalog snp_only.avinput /nfs/srv/databases/annovar/humandb.old/ аннотация файла с snp по базе Gwas.
annotate_variation.pl -filter -out clinvar -build hg19 -dbtype clinvar_20140211 snp_only.avinput /nfs/srv/databases/annovar/humandb.old/ аннотация файла с snp по базе Clinvar.

Исходно было получено 10410 ридов, длина которых составляла от 40 до 100 нуклеотидов, а среднее качество прочтения - около 38%. После очистки чтений их количество уменьшилась слегка: до 10191, а длина стала не меньше 50 нуклеотидов, как мы того и требовали. На рисунках 1 и 2 можно видеть более информативную оченку качества чтений, полученную с помощью программы FastQC. По ним видно, что теперь качество каждого рида выше 20 и ничего не располагается в красной области. Из-за этого увеличилось и среднее арифметическое всех прочтений и, в целом, данные стали более надежныи, поэтому триммирование оправдано.

blast
Рисунок 1. Оценка качества чтений до чистки. Синия линия - среднее арифметическое, красная - медиана.

blast
Рисунок 2. Оценка качества чтений после чистки

Задание 2. Анализ полученного выравнивания и поиск инделей и snp

По выводу программы Hisat2:

 10191 (100.00%) were unpaired; of these:
    47 (0.46%) aligned 0 times
    10140 (99.50%) aligned exactly 1 time
    4 (0.04%) aligned >1 times
    99.54% overall alignment rate 
видно, что 99,5% чтений выравнились ровно один раз, всего 4 рида выравнились два и больше раза и 47 прочтений, что составляет около 0,46% не выравнились вообще. Можно сказать, что качество картирования высокое.

Для описания snp и инделей был получен файл poly.vcf. Он содержит описания 79 полиморфизмов, из которых 7 - это индели. Глубина покрытия (DP) указана в последнем столбце, а качество покрытия можно посмотреть в столбце Qual. Все полученный данные занесены в таблицу 2.

Таблица 2.
Полиморфизмы (примеры из файла poly.vcf)
Координата полиморфизма Тип полиморфизма Референс Чтение Глубина покрытия Качество чтения
1 234160243 замена G C 7 81.0075
2 234202274 вставка TCC TCCC 1 3.80767
3 234201186 замена А G 14 126.008

Проанализировав качество всех полиморфизмов, были получены следующие значения: среднее арифметическое: 70,46, а медиана - 127,23, то есть ровно половина значений больше медианы, но ненамного. Среднее значение глубины покрытий = 15,73, но медиана (=3,5) лучше характеризует этот показатель, так как видно, что около половины ридов накладываются на геном меньше четырех раз, но за счет некоторых участков с большой глубиной покрытия, среднее арифметическое оказывается высоким.

Задание 3. Аннотация SNP.

Программа convert2annovar.pl для файла только с SNP показала, что из 72 замен 50 являются транзициями, а 22 соответственно трансверсиями. Далее производилась аннотация полученного файла по различным базам. При аннотации по refgene был получен файл refgene.variant_function, в котором описано в каком участке ДНК произошла данная замена. Разделение получилось следующим: exonic (6), UTR3 (6), UTR5 (2),ncRNA_exonic (1), intronic (57). Гены, в которые попали SNP: CCCDC88A, ATG16L1, MLPH. Для шести замен, попавших в экзоны в файле refgene.exonic_variant_function, указано являются ли они синонимическими или нет. Синонимичной является только одна из них, попавшая в ген MLPH.

Из аннотации по базе snp можно понять, сколько snp имееют rs. Информация лежит в файле snp138.hg19_snp138_dropped, получается, что 67 snp имеют rs, то есть это те замены, которые есть в банке snp. Оставшихся 5 замен в банке нет, они лежат в файле snp138.hg19_snp138_filtered. Также была посчитана средняя частота найденных snp по аннотации по базе 1000 Genomes. Она составила 37.72%. А в целом она очень сильно варьируется, есть как и очень часто встречающиеся Snp, так и редкие. Одна аннотированная в Clinvar замена вызывает восприимчивость к воспалению кишечника, тогда как замен, аннотированных в Gwas, не было найдено вообще.