Поиск и описание полиморфизмов

Часть I: подготовка чтений

Команда Функция
fastqc chr2.fastq Выдает информацию о ридах, находящихся в файле chr2.fastq, в графическом виде; в частности график с "ящиками с усами", позволяющий дать оценку качеству нуклеотидов в ридах
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr2.fastq chr2edited.fastq TRAILING:20 MINLEN:50 Отрезает с конца каждого рида в файле chr2.fastq нуклеотиды с качеством ниже 20 и оставляет риды длиной не менее 50 нуклеотидов; выходные данные записывает в chr2edited.fastq

FastQC: "Per base quality" до чистки

Число ридов: 10410

FastQC: "Per base quality" после чистки

Число ридов: 10191

Как видно из графиков, значительному изменению после чистки подверглись средние значения качества нуклеотидов, находящихся ближе к концу ридов, а точнее они улучшились за счет того, что укорачивались концы тех ридов, у которых конечные нуклеотиды были низкого качества. Также очистка чтений включала в себя исключение ридов короче 50 нуклеотидов, таковых оказалось 219 штук; это также улучшило качество нуклеотидов.

Часть II: картирование чтений

Команда Функция
Картирование чтений
hisat2-build chr2.fasta hisat2-build Индексирует последовательность в файле chr2.fasta; 8 выходных файлов - hisat2-build.х.ht2, где х - от 1 до 8.
hisat2 --no-spliced-alignment --no-softclip hisat2-build ../chr2edited.fastq -S hisat2-build.sam Строит выравнивание (выходной файл - hisat2-build.sam) ридов, прошедших очистку (chr2edited.fastq), и индексированной последовательности второй хромосомы (=референсная последовательность); --no-softclip запрещает подрезание чтений, --no-spliced-alignment обеспечивает картирование без разрывов.
Анализ выравнивания
samtools view hisat2-build.sam -b -o hisat2-build.bam Переводит выравнивания из формата .sam в бинарный формат .bam; -b указывает на формат .bam выходного файла (hisat2-build.bam), -o - на сам выходной файл.
samtools sort hisat2-build.bam hisat2-buildsorted Сортирует выравнивания чтений с референсной последовательностью; входной файл - hisat2-build.bam, выходной - hisat2-buildsorted.bam.
samtools index hisat2-buildsorted.bam Индексирует выравнивания в формате .bam; входной файл - hisat2-buildsorted.bam; выходной - hisat2-buildsorted.bam.bai.

Вывод hisat2:

10191 reads; of these: 10191 (100.00%) were unpaired; of these: 47 (0.46%) aligned 0 times 10140 (99.50%) aligned exactly 1 time 4 (0.04%) aligned >1 times 99.54% overall alignment rate

Из него видно, что всего из 10191 чтений было откартировано 10140, причем 4 из них были выровнены более одного раза. 47 ридов не было откартировано.

Часть III: Анализ SNP

Команда Функция
Поиск SNP и инделей
samtools mpileup ../hisat2-build/hisat2-buildsorted.bam -uf ../chr2.fasta -o snp.bcf Создает файл snp.bcf, в котором в бинарном формате описаны различия между референсной последовательностью и ридами в выравниваниях из файла hisat2-buildsorted.bam; -uf - создание несжатого файла .vcf, входной в fasta формате.
bcftools call -cv snp.bcf -o snp.vcf Создает файл snp.vcf, в котором описаны различия между референсной последовательностью и ридами в выравниваниях; формат не бинарный.
Аннотация SNP
grep -v "INDEL" snp.vcf > snponly.vcf Создает файл snponly.vcf, аналогичный snp.vcf, но без инделей.
convert2annovar.pl -format vcf -outfile snponly.txt snponly.vcf Конвертирует файл в формате .vcf (snponly.vcf) в формат, усваиваемый пограммой annotate_variation.pl (здесь: .txt).
annotate_variation.pl -out refgene -build hg19 ../snp/snponly.txt ../../../annovar/humandb/ Аннотирует полиморфизмы по базе данных refgene, где -out указывает на выходной файл, -build - на сборку, ../snp/snponly.txt входной файл, ../../../annovar/humandb/ - путь к базе данных.
annotate_variation.pl -filter -out rs -build hg19 -dbtype snp138 ../snp/snponly.txt ../../../annovar/humandb.old/ Аннотирует полиморфизмы по базе данных dbsnp
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000g ../snp/snponly.txt ../../../annovar/humandb.old/ Аннотирует полиморфизмы по базе данных 1000 genomes
annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog ../snp/snponly.txt ../../../annovar/humandb.old/ Аннотирует полиморфизмы по базе данных Gwas
annotate_variation.pl ../snp/snponly.txt ../../../annovar/humandb.old/ -filter -dbtype clinvar_20150629 -buildver hg19 -out clinvar Аннотирует полиморфизмы по базе данных Clinvar

Было получено 72 snp и 7 инделей. В таблице ниже приведены один из инделей и 2 snp с одними из самых лучших значениий глубины прочтения и качества. В общем, таких, которые несут смысл, snр немного; их можно поделить на группы: несколько полиморфизмов с глубиной покрытия 70-130+ и с качеством 223-225, полиморфизмы с глубиной покрытия 10-30 и качеством 120-220 (их больше). Большую часть составляют snp с глубиной прочтения 1-2 и качеством <10 - скорее всего это ошибки. Также встречаются полиморфизмы с небольшой глубиной прочтений, но с сравнительно хорошим качеством.

координата тип полиморфизма найдено в референсе найдено в ридах глубина покрытия качество чтения
55516323 замена T G 112 225.009
55523308 индель CCA CAACA 6 188.468
234204113 замена Т С 136 221.999

В зависимости от того, где был обнаружен полиморфизм, БД refgene делит их (полиморфизмы) на следующие категории: из нетранслируемых областей UTR3 (6 snp) и UTR5 (2), из интронов intronic (57), из экзонов, служащих матрицей для некодирующей РНК ncRNA_exonic (1), из экзонов exonic (6). Также snp делятся на het (30) и hom (42) в зависмости от того, гетерозиготен ли пациент по конкретному snp или нет. Snp попали в следующие гены: CCDC88A, ATG16L1, MLPH, MIR6811. Аннотироваными rs окалось 67 snp, 5 snp - нет. Частота snp варьриует от 0.07 до 0.9, однако полиморфизмов с такими крайними частотами мало, перобладают полиморфизмы с snp 0.3-0.4.

В таблицы ниже приведены snp и аминокислотные замены к которм они привели. В общем счете только 1 замена оказалась синонимичной (E→E).

позиция snp замена нуклеотидов замена аминокислот
234183368 A→G T→A
238427194 T→C L→P
238427251 G→A G→D
238443226 A→G H→R
238449007 T→C V→A
238449107 A→G E→E

Если говорить о клинической аннотации, то snp clinvar_20150629 на позиции 234183368 (A→G) характерен для людей с высокой предрасположенностью к воспалительным заболеваниям кишечника (Clinvar аннотировал только этот полиморфизм). В то же время, благодаря аннотации по GWAS, известно, что 2 полиморфизма (на позициях 234173503 и 234183368) ассоциированы с болезнью Крона, которое относится к воспалительным заолеваниям кишечника; однако оба snp находятся в гетерозиготном состоянии, поэтому нельзя точно говорить о фенотипическом проявлении этого варианта. Помимо вышеуказанных полиморфизмов еще 1 полиморфизм (238443226) ассоциирован с раком простаты, и еще один полиморфизм (55516323) скорее всего связан с особенностями роста (отмечен gwasCatalog-ом как "Height").

Сводная таблица

© Агаева Зара, 2018