Сборка генома бактерии Buchnera aphidicola
Подготовка данных
С сайта проекта
SRR4240380 скачал
риды этой бактерии, полученные по технологии Illumina.
Очистка чтений с помощью trimmomatic. Для удаления адаптеров создал
файл со всеми адаптерами и использовал команду:
'java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380.fastq f-a.fastq ILLUMINACLIP:adapters.fa:2:7:7'.
В результате работы команды из 5217318 ридов осталось - 5119144 (98,12%) и отсеяно - 98174 (1,88%). Размер файла уменьшился с 538429 до 528107 (КБ).
После этого удалим плохие буквы с концов и оставим только риды длиной не менее 30 командой:
'java -jar /usr/share/java/trimmomatic.jar SE -phred33 f-a.fastq f-a-e.fastq TRAILING:20 MINLEN:30'
После этой команды из 5119144 уцелело - 4879709 (95,32%) и отсеялось - 239435 (4,68%). Размер файла изменился с 528107 до 502702(КБ).
Сборка программой Velvet
Провели подготовку к-меров длины 29 командой:
'velveth K29 29 -short -fastq f-a-e.fastq'. Где К29 - директория выходных файлов программы: Log, Roadmaps, Sequences. Два последних нужны для
запуска следующей программы.
Приступим к сборке на основе к-меров с помощью команды:
'velvetg K29'. К29 - директория, полученная прошлой командой. В указанной директории лежат и выходные данные. Из них нас интересуют два:
файл с последовательностями всех контигов длины больше 29 и
файл со сводной статистикой по контигам. В результате работы программы имеем
888 контигов, N50 = 18128, максимальная длина контига - 57469, общий размер генома - 669735, использовано 4879709 ридов. Для статистической
обработки использовал только контиги длины больше 29. Во-первых, только они записаны в файле с последовательностями контигов. Во-вторых, очень
маленькие контиги составляют большинство по количество, но меньшинство по общему покрытию генома, соответственно, они бы сильно скосили
статистические расчеты. Итого рассматривали 202 контига из 888. В
файле представлена таблица данных по контигам
длины больше 29. Некоторые из них представлены в таблице 1. Данные по трем самым длинным контигам в таблице 2. Примеры контигов с аномально
высоким покрытием - в таблице 3. Контигов с аномально низким покрытием не обнаружено. Ссылки на последовательности через ID.
Таблица 1. Статистика по контигам |
| Покрытие | Длина |
Среднее | 19.7 | 3296 |
Медиана | 10.2 | 86 |
Таблица 2. Три самых длинных контига |
ID | Длина | Покрытие |
9 | 57369 | 36 |
3 | 43960 | 36 |
8 | 33034 | 35 |
Таблица 3. Контиги с аномально большим покрытием |
ID | Длина | Покрытие |
11 | 2108 | 171 |
62 | 108 | 130 |
Всего было найдено 4 контига с аномально высоким покрытием. Рассмотрим 2 из них. Длины этих контигов отличаются в 21 раз,
причем контиг с большим покрытием - больше, хотя статистически должно быть наоборот. Вероятнее всего очень высокое покрытие этих контигов
обусловлено другими причинами. Например эти участки повторяются геноме и это на самом деле сумма нескольких контигов. Последовательности этих
контигов несут большие повторяющиеся участки Т и А нуклеотидов. Возможно, программа дает неправильные результаты в таких ситуациях и мы видим
просто ошибку алгоритма.
Анализ полученных данных
Таблица 4. Характеристики выравниваний контигов |
ID | Координаты | Покрытие, % | Гэпы, % | Сходство, % |
9 | 11849-43778 | 68 | 2 | 78 |
8 | 2361-32821 | 61 | 2 | 77 |
3 | 33034 | 86 | 2 | 81 |
11 | - | - | - | - |
62 | - | - | - | - |
© Maximov Vladislav, 2019.