Сборка генома de novo

1. Подготовка чтений

После удаления адаптеров: выкинулось 55902 прочтения из 13557938 (0,41%).

После удаления плохих букв с концов (TRAILING:20): удалено 120967 прочтений из 13502036 (0,9%).

После установления порога на длину прочтения (MINLEN:30): убрано 831690 прочтений из 13381069 (6,22%). Размер финального файла - 1256 Мбайт, размер изначального - 1375 Мбайт.

2. Подготовка k-меров

k-меры длины 29 создавались при помощи программы velveth командой

                                        velveth kmers 29 -short -fastq bact_edited.fastq

3. Сборка

Программа velvetg была запущена со всеми параметрами по умолчанию (команда velvetg kmers). В результате выдача была следующей: Final graph has 2024 nodes and n50 of 47361, max 91528, total 722974, using 0/12549379 reads. Т.е. N50 = 47361. Информация о трёх самых длинных полученных контигах представлена в следующей таблице:

ID контига Длина, пн Покрытие с допущением неточностей (k-мера) Точное покрытие (k-мера)
4 91556 53,878649 53,872564
3 83155 51,228205 51,222274
1 78188 57,461809 57,444447

В колонке "Покрытие с допущением неточностей", помимо точно совпадающих, учитываются последовательности, ложащиеся с небольшими отличиями. В имеющихся данных эти числа мало отличаются друг от друга. Покрытие k-мера связано с обычным покрытием (сколько ридов легло на нуклеотид) следующим соотношением: Сk = C*(L-k+1)/L, где C - обычное покрытие, а L - длина рида. В контигах, чья длина больше 29 k-меров, среднее покрытие (приблизительное) составило 10,8, медиана покрытия - всего 4,6. И примерно такие же результаты будут, если рассматривать только контиги длиннее 58 k-меров (среднее и медиана 9,6 и 4,4 соответственно). То же получится и если вовсе ничего не выкидывать. Таким образом, можно заметить, что самые длинные контиги покрываются сильно лучше "типичных". Самое большое покрытие составляет 118,9 (длина соответствующего контига - 2657). Визуальное представление данных на графике длина (покрытие) выглядит достаточно забавно (см. Excel-таблица с контигами ): имеем очень много очень сильно разбросанных точек близ нуля (медиана длины - 80, в то время как средняя - 1216), а затем для более длинных контигов - качание около среднего значения покрытия - 60, практически без выбросов (выбросы - уже описанный рекордсмен по покрытию, а также контиг длины 1018 с покрытием 15,6, что выше среднего по всем контигам, но достаточно мало, если рассматривать только длинные).

4. Анализ

Результаты поиска трёх лучших контигов в геноме Buchnera aphidicola (GenBank/EMBL AC — CP009253) представлены в таблице: Blast result . Megablast был запущен 6 раз (по два раза для каждого контига), чтобы при помощи скрипта достать координаты выровненных участков (в одном случае это координаты в геноме, а если поменять местами порядок последовательностей в запросе, то координаты в контиге). Таким образом, для каждого контига было получено его примерное положение в геноме (все выравнивания кусков контига во всех случаях ложились рядом, так что минимальная координата среди всех выравниваний бралась за начало, а максимальная - за конец). Каждый из контигов покрыл 7-9% генома,при этом покрытие самих контигов составило 56, 51 и 71%. Вряд ли можно на основе полученных данных сделать однозначный вывод о том, принадлежат ли данные последовательности именно этой бактерии или же какому-то родственному виду/штамму.


© Быкова Даша, 2018