Ресеквенирование. Поиск и описание полиморфизмов у человека.

Часть I: Подготовка чтений

Нам были даны файлы с одноконцевыми чтениями экзома человека участка хромосомы. Моей была хромосома 6.
Все файлы из таблиц ниже можно найти тут: /nfs/srv/databases/ngs/catherine.nesterenko
Входной файл Выходной файл Команда Описание
chr6.fastq chr6_fastqc.zip
fastqc chr6.fastq
Программой FastQC была получена информация о качестве чтений.
chr6.fastq trim.fastq
 java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.
jar SE -phred33 chr6.fastq trim.fastq TRAILING:20 MINLEN:50
Программой Trimmomatic были убраны концы прочтений, у которых качество ниже 20, и убраны прочтения меньше 50 нуклеотидов длинной
trim.fastq trim_fastqc.zip
fastqc trim.fastq
Программой FastQC была получена информация о качестве редактированных чтений.
Качество прочтений (Per base sequence quality)
До использования Trimmonatic После использования программы Trimmonatic

Число чтений до чистки: 10289

Число чтений после чистки: 10123

Количество ридов уменьшилось на 166, потому что были отсеяны риды с качеством прочтения ниже 20 (Q < 20) и риды длиной менее 50 нуклеотидов. На картинках ниже это представленно наглядно - пропали риды с длинными усами. Качество прочтения вычисляется по формуле Q=10*lg(p), p - вероятность ошибки.

Часть II: Картирование чтений

Входной файл Выходной файл Команда Описание
ch6.fasta ch6-ind.x.ht2, где x от 1 до 8
hisat2-build chr6.fasta ch6-ind
Индексируем референсную последовательнось.
ch6-ind.x.ht2, где x от 1 до 8 alinch.sam
hisat2 -x ch6-ind -U trim.fastq --no-softclip
 --no-spliced-alignment -S alinch.sam
Построение выраванивания прочтений и референса в формате .sam.
alinch.sam balinch.bam
samtools view alinch.sam -b -o balinch.bam
Изменение формата .sam в его бинарный аналог - .bam.
balinch.bam balinch.sorted.bam
samtools sort balinch.bam balinch.sorted
Сортировка выравнивания чтений с референсом по координате в референсе начала чтения.
balinch.sorted.bam balinch.sorted.bam.bai
samtools index balinch.sorted.bam
Индексируем отсортированный файл.

Картировалось на хромосому 10046 ридов. 77 ридов не картировалось совсем.

Программа Hisat2 дает такую информацию о выраванивании чтений на геном, как: координата, куда "легло" чтение, количество картирований для конкретного чтения, некую оценку качества выравнивания и другие характеристики.

Часть III: Анализ SNP

Входной файл Выходной файл Команда Описание
balinch.sorted.bam, chr6.fasta polym.bcf
samtools mpileup -uf chr6.fasta  balinch.sorted.bam -o polym.bcf
Создание файла с полиморфизмами.
polym.bcf diff.vcf
bcftools call -cv polym.bcf -o diff.vcf
Поиск отличий между референсом и чтениями.
Описание трех полморфизмов
Координаты Тип полиморфизма В референсе В ридах Глубина покрытия Качество чтений
1 107006115 Делеция TCCCCC TCCCC,TCCC 5 15,1077
2 106978314 Замена G A 170 183,009
3 107016838 Инсерция CTTT CTTTTT 36 217,468

Всего полиморфизмов найдено - 84. Из них 5 инделей.

Покрытие неравномерное, как и качество. Наибольшая глубина покрытия 170, наименьшая 1.

Аннотация SNP

Необходимо аннотировать полученые полифорфизмы. Будем работать с SNP и использовать такие базы данных, как refgene, dbsnp, 1000 genomes, GWAS, Clinvar.
Команда Описание
convert2annovar.pl -format vcf4 diff.vcf -outfile ch6.avinput
Изменение формата файла с полиморфизмами для работы с annovar.
 annotate_variation.pl -out refgen-an -build hg19 -dbtype refGene
ch6.avinput /nfs/srv/databases/annovar/humandb.old/
Аннотация в Refgene.
annotate_variation.pl -filter -out db-an -build hg19 -dbtype
 snp138 ch6.avinput /nfs/srv/databases/annovar/humandb.old
Аннотация в dbnsp.
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19
 -out 1000G  ch6.avinput /nfs/srv/databases/annovar/humandb.old/
Аннотация в 1000genomes.
 annotate_variation.pl -regionanno -build hg19 -out GWAS
 -dbtype gwasCatalog ch6.avinput /nfs/srv/databases/annovar/humandb.old/
Аннотация в GWAS.
 annotate_variation.pl ch6.avinput /nfs/srv/databases/annovar/humandb.old/ 
-filter -dbtype clinvar_20150629 -buildver hg19 -out CLINV
Аннотация в CLINVAR.
База данных refseq в annovar делит snp на группы по позиции в геноме. На экзонах - 15, на интронах - 64, 3'UTR - 5. Эти данные можно получить из файла refgen-an.variant_function.
В файле refgen-an.exonic_variant_function можно найти информацию о делении snp в экзонах на группы - синонимичные (3), несинонимичные (10) и те, что привели к нонсенс мутации (2).

Гены, на которые попали snp - AIM1,TNFAIP3, OPRM1.

У 73 snp есть rs.

Заболевания, к которым могут привести snp, можно найти в файле GWAS.hg19_gwasCatalog.
Аннотированные в GWAS заболевания.
Инсульт 106987370 106987370 A -> C
Системная красная волчанка 138195723 138195723 C -> G
Ревматоидный артрит. Системная красная волчанка 138196066 138196066 T -> G
Ишемическая болезнь сердца 154414563 154414563 A -> G

Аннотация в ClinVar выдала одну запись в файле. На 138196066 позиции в геноме замена T -> G. Она описана термином 'not specified', это говорит, что она либо благоприятная, либо безвредная мутация, либо является признаком для еще не определенного заболевания.

Аннотация в 1000 genomes дала информацию о частоте встречаймости той или иной замены. В файл 1000G.hg19_ALL.sites.2014_10_dropped попало 73 записи.
Частота замены Координата в геноме Замена
Наибольшая 0.987819 107008422 C -> T
Наименьшая 0.00658946 154382572 G -> T

Ссылка на сводную таблицу в Excel.

© Нестеренко Екатерина 2018