Ресеквенирование. Поиск полиморфизмов у человека.

Индексирование референса

Анализ качества прочтений

Результаты анализа:

https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Color_icon_red.svg/220px-Color_icon_red.svg.png
Рисунок 1. Качество прочтений до использования trimmomatic
Видно, что качество хорошее, есть только незначительное количество выбросов с качеством меньше 20.
https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Color_icon_red.svg/220px-Color_icon_red.svg.png
Рисунок 2. Качество прочтений после использования trimmomatic
Видно, что trimmomatic убрал все выбросы.

Всего было удалено 362 прочтения, то есть около 2%. В принципе это нужно было делать, но не критично.

https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Color_icon_red.svg/220px-Color_icon_red.svg.png
Рисунок 3. GC содержание в образце
Гипотетически содержание GC в прочтениях должно соответствовать нормальному распределению (синяя линия), мы видим отклонения от него (красная линия), но в целом наше распределение близко к нормлаьному.

Картирование

Затем эти прочтения были картированы на геном.

Оказалось, что накартировались 99.62% ридов, это хорошо, только 79 прочтений из 20589 не смогли пройти эту операцию.

Поиск SNP

Итак всего было найдено 218 SNPs и 12 инделей.

https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Color_icon_red.svg/220px-Color_icon_red.svg.png
Рисунок 4. Распределение глубины картирования полиморфизмов. Есть хорошие покрытия (50-100), есть плохие (0-10).

Примеры полиморфизмов:

Позиция Тип полиморфизма Референс Вариант Качество Глубина
41356306 Инсерция ctgtgtgtgtgtgtgtgtgt cTGtgtgtgtgtgtgtgtgtgt,ctgtgtgtgtgtgtgtgt 14.6233 2
41607450 Транзиция C T 222.009 52
41939993 Трансверсия T A 225.009 67

Базы данных snp

Итоги анализа snp по базам данных:

Из файла refgen.variant_function можно извлечь следующие данные:

КатегорияКоличество snp
Категории SNP по базе Refseq
exonic13
intronic198
UTR34
intergenic1
splicing0
ncRNA0
UTR52
upstream0
downstream0

SNP попали в гены ULK4, FNDC3B

Из файла refgen.exonic_variant_function можно извлечь следующие данные о нуклеотидных заменах. Префиксом c. обозначены нуклеотидные замены, p. аминокислотные.

nonsynonymous SNV	ULK4:NM_017886:exon33:c.A3292G:p.K1098E 
nonsynonymous SNV ULK4:NM_017886:exon24:c.G2551A:p.V851I
nonsynonymous SNV ULK4:NM_017886:exon24:c.T2530A:p.L844M
nonsynonymous SNV ULK4:NM_017886:exon21:c.G2143A:p.A715T
nonsynonymous SNV ULK4:NM_017886:exon20:c.T1918G:p.S640A
nonsynonymous SNV ULK4:NM_017886:exon19:c.T1808C:p.L603S
nonsynonymous SNV ULK4:NM_017886:exon18:c.A1706G:p.K569R
synonymous SNV ULK4:NM_017886:exon17:c.A1599G:p.V533V
synonymous SNV ULK4:NM_017886:exon16:c.A1536G:p.Q512Q
nonsynonymous SNV ULK4:NM_017886:exon11:c.A1042G:p.S348G
nonsynonymous SNV FNDC3B:NM_001135095:exon6:c.C536G:p.T179S,FNDC3B:NM_022763:exon6:c.C536G:p.T179S
synonymous SNV FNDC3B:NM_001135095:exon6:c.T687C:p.H229H,FNDC3B:NM_022763:exon6:c.T687C:p.H229H
synonymous SNV FNDC3B:NM_001135095:exon12:c.T1374C:p.G458G,FNDC3B:NM_022763:exon12:c.T1374C:p.G458G

В выдаче dbsnp было найдено 177 snp, имеющих rs.

О частотах можно узнать из выдачи 1000g. Частоты лежат в диапазоне между 1 и 95%. Скачать

В выдаче GWAS написано, что найденные полиморфизмы ассоциированы с высоким ростом, с высоким кровяным давлением и риском развития диабета второго типа (ссылка на статью).

Назад

©Бакулин Артемий, 2018