Практикум 15

Сборка генома de novo

Чтения, с которыми я работал: https://www.ebi.ac.uk/ena/browser/view/SRR4240356.

1. Подготовка чтений

В скачанном из базы данных файле исходно было 7 511 529 чтений. Я записал все адаптеры в один файл и запустил TrimmomaticSE, чтобы их удалить:

TrimmomaticSE SRR4240356.fastq.gz removed_adapters.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7

После этого осталось 7 358 438 чтений, то есть остатками адаптеорв было 2,04 % чтений. Затем запустил TrimmomaticSE еще раз, чтобы убрать некачественные нуклеотиды с конца:

TrimmomaticSE removed_adapters.fastq.gz trimmed.fastq.gz TRAILING:20 MINLEN:32

Было отброшено еще 4,15 % от оставшихся чтений, всего получилось 7 053 346.

2. Получение k-меров

Создал директорию velv/ и запустил velveth:

velveth velv/ 31 -fastq.gz -short trimmed.fastq.gz

Программа создала два текстовых файла в директории velv: Roadmaps и Sequences

3. Получение графа де Брёйна и контигов

Запустил программу velvetg. На вход этой программе подается адрес директории с результатом работы velveth, и, опционально, разные настройки, но я оставил все дефолтными. На всякий случай записал в файл stdout и stderr.

velvetg velv/ &> velvetg_outerr

Программа создала в том числе файлы contigs.fa и stats.txt. В stats.txt содержатся характеристики полученных узлов графа. По умолчанию, чтобы узел графа стал контигом, он должен быть не короче 2k. В contigs.fa содержатся последовательности получившихся контигов.

Я посмотрел в файл stats.txt. Во-первых, оказалось, что есть один узел графа длиной 1 (т.е. ни с чем не объединившийся 31-мер) с огромным покрытием. Если отсортировать этот файл по покрытию, то первые несколько значений выглядят так:

На первый взгляд выглядит так, будто остался необрезанный адаптер. Наверное, можно было бы попробовать триммировать чтения еще раз, снизив пороги сходства с адаптером (хотя они, вроде, и так низкие...) В любом случае, так как эта последовательность слишком короткая, она не попала в сборку. Если оставить только те узлы графа, которые проходят по длине, то значения покрытий выглядят так (рис. 1):

hist_depth — Рис. 1. Распределение контигов по покрытию

Медианное покрытие равно 14. Видимо, восемь контигов с покрытием больше 100 можно считать "аномальными". Длина этих контигов — 72–980 b.p. Первое объяснение, которое приходит в голову — это повторы, поэтому их чтений и должно быть больше. Чтобы это проверить, выровнял один из этих контигов на геном, а в качестве контроля взял контиг похожей длины с покрытием 12 (рис. 2, 3).

node27 — Рис. 2. Выравнивание на геном контига длиной 312 и с покрытием 443

node60 — Рис. 3. Выравнивание на геном контига длиной 280 и с покрытием 12

Ну, это объяснение провалилось. Возможно, это особенности фрагментации генома при подготовке бибилиотеки, или еще что-то такое — другие возможные объяснения проверить так же просто не получится.

4. Анализ

Самые длинный получившийся контиг — узел графа № 8, 111 992 b. p. длиной. Выровнял этот контиг на геном (CP009253) с помощью megablast, параметры оставил дефолтными (в т.ч. длина слова — 28). Всего нашлось 16 выравниваний. Дотплот приведен на рис. 4.

node8 — Рис. 4. Выравнивание самого длинного контига (№ 8) на геном

Как видно, эти 16 выравниваний не противоречат друг другу. Это выравнивания разных фрагментов контига, которые помещают его в одной и той же ориентации в одно и то же место генома. Между ними, видимо, находятся более вариабельные участки, которые не нашлись алгоритмом.

Начало первого выравнивания из шестнадцати — нуклеотид 2390 контига, конец последнего — 109 238, т.е. между ними лежит 95,4 % длины контига. Оставшиеся 5,6 % — это концы, которые не выровнялись. Кроме того, в промежутках между этими выравниваниями находится еще 19,7 % длины контига. Всего в этих выравниваниях 16 054 мисматча и 2092 гэпа. Понятно, что участки контига и хромосомы между нашедшимися выравниями тоже гомологичны друг другу, поэтому, если бы хотелось сравнить геном со сборкой лучше, можно было бы сделать глобальное выравнивание контига с соответсвующим регионом хромосомы.

Для следующих двух самых длинных контигов аналогичная информация приведена на рис. 5 и 6 и в табл. 1.

node6 — Рис. 5. Выравнивание контига № 6 на геном

node10 — Рис. 6. Выравнивание контига № 10 на геном

Табл. 1. Характеристики выравнивания самых длинных контигов на геном.
Номер контига	Длина контига	Количество нашедшихся выравниваний	Начало первого выравнивания (контиг)	Конец последнего выравнивания (контиг)	Начало первого выравнивания (хромосома)	Конец последнего выравнивания (хромосома)	Доля контига, покрытая выравниваниями, %	Мисматчи	Гэпы
8	111 992	16	2390	109 238	451 729	555 905	75,71	16 054	2092
6	107 518	18	146	107 252	220 869	323 043	78,31	16 294	2171
10	80 969	11	37	69 033	126 623	195 400	61,55	10 414	1202