Подготовка чтений
После обрезания адапторов остается вот столько чтений (размер файла не меняется — 1613M):
Input Reads: 15032810 Surviving: 15029737 (99,98%) Dropped: 3073 (0,02%)
А после триммирования вот столько:
Input Reads: 15029737 Surviving: 3665896 (24,39%) Dropped: 11363841 (75,61%)
Чтений остается поразительно мало — чуть меньше 25%. Видимо, в сборке оказывается большое число ридов с остатками адептеров длиной более 7 нуклеотидов. Размер файла падает до 374М.
Сборка и ее анализ
k-меры длиной 31 подготовлены с помощью следующей команды:
velveth output 31 -fastq -short trimmed.fastq
Сборку делаем с помощью:
velvetg output
На выходе команды получаем следующую информацию:
Final graph has 1772 nodes and n50 of 583, max 5807, total 586150, using 0/3665896 reads
N50 | 593 |
Длины 3 самых длинных контигов | 5807, 2952, 2918 |
Их покрытия | 24.094713, 19.468835, 23.164496 |
Выравнивание контига длиной 5807
Alignment statistics for match #1 Score Expect Identities Gaps Strand 5552 bits(3006) 0.0 4917/5860(84%) 49/5860(0%) Plus/Minus
Алгоритм выдает одно единственное выравнивание на референсную хромосому. Координаты наложения — 42429/36596, т.е. контиг накладывается на минус-цепь. Находим 49 гепов и 894 нуклеотидных замен. Наложение непрерывное.
Выравнивание для контига длиной 2952
Score Expect Identities Gaps Strand 2222 bits(1203) 0.0 2344/2898(81%) 66/2898(2%) Plus/Minus
Алгоритм выдает тоже одно единственное выравнивание контига на референсную хромосому. Наложение, следовательно, непрерывное. Координаты наложения — 555138/552297, последовательность накладывается на минус-цепь. Находим 66 гепов и 579 нуклеотидных замен. Стоит дополнительно отметить, что выравнивание начинается с 93 нуклеотида контига. Куда делся его другой кусочек неясно, но он мог быть, например, инсерцией?
Выравнивание для контига длиной 2918
Score Expect Identities Gaps Strand 2283 bits(1236) 0.0 2413/2985(81%) 65/2985(2%) Plus/Minus
Выравнивание тоже одно единственное. В нем находим 65 гепов и 507 однонуклеотидных замен. Координаты наложения — 546571/543615, контиг ложится на минус-цепь.