Сборка генома de novo
1. Подготовка чтений
После удаления адаптеров: выкинулось 55902 прочтения из 13557938 (0,41%).
После удаления плохих букв с концов (TRAILING:20): удалено 120967 прочтений из 13502036 (0,9%).
После установления порога на длину прочтения (MINLEN:30): убрано 831690 прочтений из 13381069 (6,22%). Размер финального файла - 1256 Мбайт, размер изначального - 1375 Мбайт.
2. Подготовка k-меров
k-меры длины 29 создавались при помощи программы velveth командой
velveth kmers 29 -short -fastq bact_edited.fastq
3. Сборка
Программа velvetg была запущена со всеми параметрами по умолчанию (команда velvetg kmers). В результате выдача была следующей: Final graph has 2024 nodes and n50 of 47361, max 91528, total 722974, using 0/12549379 reads. Т.е. N50 = 47361. Информация о трёх самых длинных полученных контигах представлена в следующей таблице:
ID контига | Длина, пн | Покрытие с допущением неточностей (k-мера) | Точное покрытие (k-мера) |
4 | 91556 | 53,878649 | 53,872564 |
3 | 83155 | 51,228205 | 51,222274 |
1 | 78188 | 57,461809 | 57,444447 |
В колонке "Покрытие с допущением неточностей", помимо точно совпадающих, учитываются последовательности, ложащиеся с небольшими отличиями. В имеющихся данных эти числа мало отличаются друг от друга. Покрытие k-мера связано с обычным покрытием (сколько ридов легло на нуклеотид) следующим соотношением: Сk = C*(L-k+1)/L, где C - обычное покрытие, а L - длина рида. В контигах, чья длина больше 29 k-меров, среднее покрытие (приблизительное) составило 10,8, медиана покрытия - всего 4,6. И примерно такие же результаты будут, если рассматривать только контиги длиннее 58 k-меров (среднее и медиана 9,6 и 4,4 соответственно). То же получится и если вовсе ничего не выкидывать. Таким образом, можно заметить, что самые длинные контиги покрываются сильно лучше "типичных". Самое большое покрытие составляет 118,9 (длина соответствующего контига - 2657). Визуальное представление данных на графике длина (покрытие) выглядит достаточно забавно (см. Excel-таблица с контигами ): имеем очень много очень сильно разбросанных точек близ нуля (медиана длины - 80, в то время как средняя - 1216), а затем для более длинных контигов - качание около среднего значения покрытия - 60, практически без выбросов (выбросы - уже описанный рекордсмен по покрытию, а также контиг длины 1018 с покрытием 15,6, что выше среднего по всем контигам, но достаточно мало, если рассматривать только длинные).
4. Анализ
Результаты поиска трёх лучших контигов в геноме Buchnera aphidicola (GenBank/EMBL AC — CP009253) представлены в таблице: Blast result . Megablast был запущен 6 раз (по два раза для каждого контига), чтобы при помощи скрипта достать координаты выровненных участков (в одном случае это координаты в геноме, а если поменять местами порядок последовательностей в запросе, то координаты в контиге). Таким образом, для каждого контига было получено его примерное положение в геноме (все выравнивания кусков контига во всех случаях ложились рядом, так что минимальная координата среди всех выравниваний бралась за начало, а максимальная - за конец). Каждый из контигов покрыл 7-9% генома,при этом покрытие самих контигов составило 56, 51 и 71%. Вряд ли можно на основе полученных данных сделать однозначный вывод о том, принадлежат ли данные последовательности именно этой бактерии или же какому-то родственному виду/штамму.
© Быкова Даша, 2018