"Так долго вместе прожили мы с ней,
что сделали из собственных теней
	мы дверь себе - работаешь ли, спишь ли,
но створки не распахивались врозь,
и мы прошли их, видимо, насквозь
	и черным ходом в будущее вышли".
Иосиф Бродский, Шесть лет спустя.

Добро пожаловать!

Подготовка чтений

После обрезания адапторов остается вот столько чтений (размер файла не меняется — 1613M):

Input Reads: 15032810 Surviving: 15029737 (99,98%) Dropped: 3073 (0,02%)

А после триммирования вот столько:

Input Reads: 15029737 Surviving: 3665896 (24,39%) Dropped: 11363841 (75,61%)

Чтений остается поразительно мало — чуть меньше 25%. Видимо, в сборке оказывается большое число ридов с остатками адептеров длиной более 7 нуклеотидов. Размер файла падает до 374М.

Сборка и ее анализ

k-меры длиной 31 подготовлены с помощью следующей команды:

  velveth output 31 -fastq -short trimmed.fastq 

Сборку делаем с помощью:

 velvetg output

На выходе команды получаем следующую информацию:

Final graph has 1772 nodes and n50 of 583, max 5807, total 586150, using 0/3665896 reads

N50 593
Длины 3 самых длинных контигов 5807, 2952, 2918
Их покрытия 24.094713, 19.468835, 23.164496

Скачать табличку со статистической информацией

Выравнивание контига длиной 5807
Alignment statistics for match #1
Score   	Expect	Identities	Gaps    	Strand
5552 bits(3006)	0.0	4917/5860(84%)	49/5860(0%)	Plus/Minus

Алгоритм выдает одно единственное выравнивание на референсную хромосому. Координаты наложения — 42429/36596, т.е. контиг накладывается на минус-цепь. Находим 49 гепов и 894 нуклеотидных замен. Наложение непрерывное.

Выравнивание для контига длиной 2952
Score   	Expect	Identities	Gaps    	Strand
2222 bits(1203)	0.0	2344/2898(81%)	66/2898(2%)	Plus/Minus

Алгоритм выдает тоже одно единственное выравнивание контига на референсную хромосому. Наложение, следовательно, непрерывное. Координаты наложения — 555138/552297, последовательность накладывается на минус-цепь. Находим 66 гепов и 579 нуклеотидных замен. Стоит дополнительно отметить, что выравнивание начинается с 93 нуклеотида контига. Куда делся его другой кусочек неясно, но он мог быть, например, инсерцией?

Выравнивание для контига длиной 2918
Score   	Expect	Identities	Gaps    	Strand
2283 bits(1236)	0.0	2413/2985(81%)	65/2985(2%)	Plus/Minus

Выравнивание тоже одно единственное. В нем находим 65 гепов и 507 однонуклеотидных замен. Координаты наложения — 546571/543615, контиг ложится на минус-цепь.