Учебный сайт Юдиной А.С.

Сборка генома de novo.

В данном задании предлагалось поработать с проектом по секвенированию бактерии Buchnera aphidicola. Это бактерия относится к группе протеобактерий, является грамотрицательной и считается родcтвенником современных энтеробактерий. [1]
Мне был выдан код доступа к проекту, по которому я скачала файл SRR4240360.fastq.gz в рабочую директорию /nfs/srv/databases/ngs/stacyud. Данные для дальнейшей работы из архива были извлечены командой: gunzip SRR4240360.fastq.gz.

I часть. Подготовка чтений.

Перед началом работы все чтения были обработаны программой trimmomatic. Били удалены адаптеры и плохие буквы с концов, а также чтения с длиной меньше 30 нуклеотидов (так как известно, что в среднем длина 36 нуклеотидов). Все адаптеры для Illumina были собраны в один файл adapters.fasta. Все команды, выполненные в ходе очистки, сведены в таблицу 1.

Таблица 1

Команда	Назначение/Выдача
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240360.fastq SRR4240360_na.fastq ILLUMINACLIP:adapters.fasta:2:7:7	Удаляет адаптеры. Создает файл SRR4240360_na.fastq. Результат: Input Reads: 8254632 Surviving: 8212774 (99,49%) Dropped: 41858 (0,51%)
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240360_na.fastq SRR4240360_1.fastq TRAILING:20 MINLEN:30	Обрезает с концов чтений нуклеотиды с качеством ниже 20 и удаляет чтения с длиной менее 30. Выдает SRR4240360_1.fastq РезультатInput Reads: 8212774 Surviving: 7935087 (96,62%) Dropped: 277687 (3,38%)

II часть. Подготовка k-меров.

Подготовка k-меров производилась в программе velveth (подпрограмма программы velvet). Эта программа строит хаш-таблицы и создает в отдельной директории два файла - Sequences и Roadmaps, необходимые для работы программы velvetg.

Таблица 2

Команда	Назначение/Выдача
velveth velveth 29 -fastq -short SRR4240360_1.fastq	В указанной директории velveth файлы Sequences и Roadmaps

III часть. Сборка на основе k-меров.

На данном этапе работы для обработки файлов из предыдущей части используется программа velvetg. Она строит граф де Брайна, граф ориентирован, в его вершинах расположены последовательности символов длины n. Граф отражает пересечения между последовательностями символов.

Таблица 3

Команда	Назначение/Выдача
velvetg velveth	В директории velveth создаются файлы contigs.fa (содержащий последовательности всех собранных контигов) и stats.txt (содержащий информацию по всем контигам, стоящим в вершинах графа).

Граф имеет 1514 вершин и N50 = 67095.

Описание контигов с максимальной длиной представлено в таблице 4.

Таблица 4

ID	Длина	Покрытие
1	94956	43.683443
5	70305	49.352365
9	70300	42.008890

Теперь требовалось определить есть ли контиги с аномально большим или маленьким покрытием, для этого были вычислены наиболее употребляемые средние значения в программе Excel.
Среднее значение - 162,36, медиана - 8, что говорит о том, что разброс значений довольно велик. Контигов с покрытием отличающимся от среднего более чем в 5 раз в большую сторону оказалось 2, отличающихся в 5 раз в меньшую сторону (то есть с покрытием менее 32, 47) оказалось 1052. Наиболее отличающиеся от среднего значения контиги сведены в таблицу 5.

Таблица 5

ID	Длина	Покрытие	Отличие от среднего значения
1431	1	187344	в 1153,88 раза
1310	1	848	в 5,22 раза
771	11	273,363636	в 1,68 раз
- (38 контигов)	от 1 до 5	1	в 162,36 раза

IV часть. Анализ.

Теперь требуется сравнить нашу сборку с уже собранной хромосомой того же организма (AC CP009253). Для этого был использован megablast со стандартными параметрами. В таблице 6 представлены результаты работы megablast, основные показатели представлены для самой большой находки

Таблица 6

ID	Координаты	Max score	Total score	Query cover	E-value	Ident	Length	Gap
1	402668 - 495148	4047	32384	9%	0.0	5690/7388(77%)	94984	206/7388(2%)
7	2004 - 44693 604302 - 627104 *	8517	34821	8%	0.0	7979/9631(83%)	70333	126/9631(1%)
9	202390 - 271926	4748	30562	8%	0.0	8176/10882(75%)	70328	386/10882(3%)

* Контиг отложился частично в начало и частично в конец генома, но это одна находка.

Контиг ID 1
Последовательность данного контига отложилась на геном прерывисто - всего было постороено 20 выравниваний, с разным весом и E-value (от 0.0 до 6е-32). Все находки расположены подряд и на карте локального сходства выглядят так:

Можно сделать вывод, что относительно положения в геноме данный контиг инвертирован.

Контиг ID 7
Для последовательности данного контига построено 14 выравниваний, соответствующих разным его участкам, с разным весом и E-value (от 0.0 до 3е-53). Кроме того контиг разнесен по геному, одна его чать отложилась в начало, другая - в конец, как показано на карте локального сходства:

Так как геном бактерии ковалентно замкнут, такрой результат мы могли получить в результате тогго, что при секвенировании референсного генома начало было выбрано в другом месте, нежели при секверинровании нашего контига.

Контиг ID 9
Для последовательности данного контига построено 14 выравниваний, соответствующих разным его участкам, с разным весом (от 4748 до 339) и E-value (от 0.0 до 4e-92). Находки расположенвы на геноме подряд и на карте локальног сходства выглядят так:

Как и в случае с первым рассматриваемым контигом, последовательеность инвертирована относительно генома.

Общий вывод по всем контигам: находки выравниваний контига и генома расподожены на геноме подряд и имеют хороший вес и E-value, указывающее на достоверность этих находок.

Источники

[1] wikipedia.org