Главная
Семестры
Обо мне
Ссылки

Сборка генома бактерии Buchnera aphidicola


Подготовка данных

С сайта проекта SRR4240380 скачал риды этой бактерии, полученные по технологии Illumina.
Очистка чтений с помощью trimmomatic. Для удаления адаптеров создал файл со всеми адаптерами и использовал команду:
'java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380.fastq f-a.fastq ILLUMINACLIP:adapters.fa:2:7:7'.
В результате работы команды из 5217318 ридов осталось - 5119144 (98,12%) и отсеяно - 98174 (1,88%). Размер файла уменьшился с 538429 до 528107 (КБ).
После этого удалим плохие буквы с концов и оставим только риды длиной не менее 30 командой:
'java -jar /usr/share/java/trimmomatic.jar SE -phred33 f-a.fastq f-a-e.fastq TRAILING:20 MINLEN:30'
После этой команды из 5119144 уцелело - 4879709 (95,32%) и отсеялось - 239435 (4,68%). Размер файла изменился с 528107 до 502702(КБ).

Сборка программой Velvet

Провели подготовку к-меров длины 29 командой:
'velveth K29 29 -short -fastq f-a-e.fastq'. Где К29 - директория выходных файлов программы: Log, Roadmaps, Sequences. Два последних нужны для запуска следующей программы.
Приступим к сборке на основе к-меров с помощью команды:
'velvetg K29'. К29 - директория, полученная прошлой командой. В указанной директории лежат и выходные данные. Из них нас интересуют два: файл с последовательностями всех контигов длины больше 29 и файл со сводной статистикой по контигам. В результате работы программы имеем 888 контигов, N50 = 18128, максимальная длина контига - 57469, общий размер генома - 669735, использовано 4879709 ридов. Для статистической обработки использовал только контиги длины больше 29. Во-первых, только они записаны в файле с последовательностями контигов. Во-вторых, очень маленькие контиги составляют большинство по количество, но меньшинство по общему покрытию генома, соответственно, они бы сильно скосили статистические расчеты. Итого рассматривали 202 контига из 888. В файле представлена таблица данных по контигам длины больше 29. Некоторые из них представлены в таблице 1. Данные по трем самым длинным контигам в таблице 2. Примеры контигов с аномально высоким покрытием - в таблице 3. Контигов с аномально низким покрытием не обнаружено. Ссылки на последовательности через ID.
Таблица 1. Статистика по контигам
ПокрытиеДлина
Среднее19.73296
Медиана10.286

Таблица 2. Три самых длинных контига
IDДлинаПокрытие
95736936
34396036
83303435

Таблица 3. Контиги с аномально большим покрытием
IDДлинаПокрытие
112108171
62108130
Всего было найдено 4 контига с аномально высоким покрытием. Рассмотрим 2 из них. Длины этих контигов отличаются в 21 раз, причем контиг с большим покрытием - больше, хотя статистически должно быть наоборот. Вероятнее всего очень высокое покрытие этих контигов обусловлено другими причинами. Например эти участки повторяются геноме и это на самом деле сумма нескольких контигов. Последовательности этих контигов несут большие повторяющиеся участки Т и А нуклеотидов. Возможно, программа дает неправильные результаты в таких ситуациях и мы видим просто ошибку алгоритма.

Анализ полученных данных

Таблица 4. Характеристики выравниваний контигов
IDКоординаты Покрытие, % Гэпы, % Сходство, %
911849-4377868 2 78
82361-3282161 2 77
33303486 2 81
11-- - -
62-- - -