Учебный сайт Юдиной А.С.

Главная

Обо мне

Семестры

Сборка генома de novo.

В данном задании предлагалось поработать с проектом по секвенированию бактерии Buchnera aphidicola. Это бактерия относится к группе протеобактерий, является грамотрицательной и считается родcтвенником современных энтеробактерий. [1]
Мне был выдан код доступа к проекту, по которому я скачала файл SRR4240360.fastq.gz в рабочую директорию /nfs/srv/databases/ngs/stacyud. Данные для дальнейшей работы из архива были извлечены командой: gunzip SRR4240360.fastq.gz.

I часть. Подготовка чтений.

Перед началом работы все чтения были обработаны программой trimmomatic. Били удалены адаптеры и плохие буквы с концов, а также чтения с длиной меньше 30 нуклеотидов (так как известно, что в среднем длина 36 нуклеотидов). Все адаптеры для Illumina были собраны в один файл adapters.fasta. Все команды, выполненные в ходе очистки, сведены в таблицу 1.

Таблица 1

Команда Назначение/Выдача
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240360.fastq SRR4240360_na.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Удаляет адаптеры. Создает файл SRR4240360_na.fastq.
Результат: Input Reads: 8254632 Surviving: 8212774 (99,49%) Dropped: 41858 (0,51%)
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240360_na.fastq SRR4240360_1.fastq TRAILING:20 MINLEN:30 Обрезает с концов чтений нуклеотиды с качеством ниже 20 и удаляет чтения с длиной менее 30. Выдает SRR4240360_1.fastq
РезультатInput Reads: 8212774 Surviving: 7935087 (96,62%) Dropped: 277687 (3,38%)

II часть. Подготовка k-меров.

Подготовка k-меров производилась в программе velveth (подпрограмма программы velvet). Эта программа строит хаш-таблицы и создает в отдельной директории два файла - Sequences и Roadmaps, необходимые для работы программы velvetg.

Таблица 2

Команда Назначение/Выдача
velveth velveth 29 -fastq -short SRR4240360_1.fastq В указанной директории velveth файлы Sequences и Roadmaps

III часть. Сборка на основе k-меров.

На данном этапе работы для обработки файлов из предыдущей части используется программа velvetg. Она строит граф де Брайна, граф ориентирован, в его вершинах расположены последовательности символов длины n. Граф отражает пересечения между последовательностями символов.

Таблица 3

Команда Назначение/Выдача
velvetg velveth В директории velveth создаются файлы contigs.fa (содержащий последовательности всех собранных контигов) и stats.txt (содержащий информацию по всем контигам, стоящим в вершинах графа).

Граф имеет 1514 вершин и N50 = 67095.

Описание контигов с максимальной длиной представлено в таблице 4.

Таблица 4

ID Длина Покрытие
1 94956 43.683443
5 70305 49.352365
9 70300 42.008890

Теперь требовалось определить есть ли контиги с аномально большим или маленьким покрытием, для этого были вычислены наиболее употребляемые средние значения в программе Excel.
Среднее значение - 162,36, медиана - 8, что говорит о том, что разброс значений довольно велик. Контигов с покрытием отличающимся от среднего более чем в 5 раз в большую сторону оказалось 2, отличающихся в 5 раз в меньшую сторону (то есть с покрытием менее 32, 47) оказалось 1052. Наиболее отличающиеся от среднего значения контиги сведены в таблицу 5.

Таблица 5

ID Длина Покрытие Отличие от среднего значения
1431 1 187344 в 1153,88 раза
1310 1 848 в 5,22 раза
771 11 273,363636 в 1,68 раз
- (38 контигов) от 1 до 5 1 в 162,36 раза

IV часть. Анализ.

Теперь требуется сравнить нашу сборку с уже собранной хромосомой того же организма (AC CP009253). Для этого был использован megablast со стандартными параметрами. В таблице 6 представлены результаты работы megablast, основные показатели представлены для самой большой находки

Таблица 6

ID Координаты Max score Total score Query cover E-value Ident Length Gap
1 402668 - 495148 4047 32384 9% 0.0 5690/7388(77%) 94984 206/7388(2%)
7 2004 - 44693
604302 - 627104 *
8517 34821 8% 0.0 7979/9631(83%) 70333 126/9631(1%)
9 202390 - 271926 4748 30562 8% 0.0 8176/10882(75%) 70328 386/10882(3%)

* Контиг отложился частично в начало и частично в конец генома, но это одна находка.

Контиг ID 1
Последовательность данного контига отложилась на геном прерывисто - всего было постороено 20 выравниваний, с разным весом и E-value (от 0.0 до 6е-32). Все находки расположены подряд и на карте локального сходства выглядят так:


Можно сделать вывод, что относительно положения в геноме данный контиг инвертирован.

Контиг ID 7
Для последовательности данного контига построено 14 выравниваний, соответствующих разным его участкам, с разным весом и E-value (от 0.0 до 3е-53). Кроме того контиг разнесен по геному, одна его чать отложилась в начало, другая - в конец, как показано на карте локального сходства:


Так как геном бактерии ковалентно замкнут, такрой результат мы могли получить в результате тогго, что при секвенировании референсного генома начало было выбрано в другом месте, нежели при секверинровании нашего контига.

Контиг ID 9
Для последовательности данного контига построено 14 выравниваний, соответствующих разным его участкам, с разным весом (от 4748 до 339) и E-value (от 0.0 до 4e-92). Находки расположенвы на геноме подряд и на карте локальног сходства выглядят так:


Как и в случае с первым рассматриваемым контигом, последовательеность инвертирована относительно генома.

Общий вывод по всем контигам: находки выравниваний контига и генома расподожены на геноме подряд и имеют хороший вес и E-value, указывающее на достоверность этих находок.

Источники

[1] wikipedia.org


© Юдина Анастасия, 2016