Учебный сайт Титовой Анастасии
ГЛАВНАЯ СТРАНИЦА
СЕМЕСТРЫ
ОБО МНЕ
КОНТАКТЫ
САЙТ ФББ
Сборка de novo
В данном практикуме необходимо было поработать с данными проекта по секвенированию бактерии Buchnera aphidicola. Мне достался код доступа SRR4240387 [1]. Был скачан заархивированный файл формата fastq, который был перенесен в папку /nfs/srv/databases/ngs/atitova/pr14 и там же распакован с помощью команды gunzip:
	gunzip SRR4240387.fastq.gz.

Buchnera aphidicola - вид гамма-протеобактерий, являющихся первичными эндосимбионтами гороховых тлей Acyrthosiphon pisum.

Рис. 1. Buchnera aphidicola в клетке хозяина [2]
Гороховая тля (лат. Acyrthosiphon pisum) — вид семейства настоящих тлей (Aphididae).
Рис. 2. Acyrthosiphon pisum[3]

Очистка чтений

Перед началом работы адаптеры из директории /P/y16/term3/block3/adapters были собраны в один файл adapters.fasta.

Команда, удаляющая остатки адаптеров:
	java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240387.fastq SRR4240387_no_ad.fastq ILLUMINACLIP:adapters.fasta:2:7:7
После работы команды:

Input Reads: 15032810 Surviving: 15029657 (99,98%) Dropped: 3153 (0,02%) (т.е. из 15032810 входных чтений были отброшены 3153 чтений).

Команда, обрезающая с концов чтений нуклеотидов с качеством ниже 20 и отбирающая чтения длины не менее 30:
	java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240387_no_ad.fastq SRR4240387_trim.fastq TRAILING:20 MINLEN:30
После работы команды имеем:

Input Reads: 15029657 Surviving: 4437416 (29,52%) Dropped: 10592241 (70,48%) (т.е. из 15029657 входных чтений были отброшены 10592241 чтений).

Подготовка k-меров

Подготовка k-меров была произведена с помощью программы velveth, которая предназначена для создания набора данных, которые далее могут обрабатываться программой velvetg. В нашем случае было необходимо подготовить k-меры длины 29 для коротких непарных чтений (-short) из файла в формате fastq (-fastq). Выходные файлы по умолчанию записывались в папку velveth.
	velveth velveth 29 -fastq -short SRR4240387_trim.fastq. 

Cборка на основе k-меров

Далее для обработки данных из предыдущей части была использована программа velvetg, которая строит граф де Брайна (граф ориентированный, в его вершинах расположены последовательности символов длины n. Граф отражает пересечения между последовательностями символов).

Команда

	velvetg velveth

В результате работы имеется граф с 1164 вершинами, N50 = 1367. Таблицу, содержащую информацию о самых длинных контигах вы можете видеть ниже.
Таблица 1. Самые длинные контиги.
ID Длина Покрытие
78 7399 33.421679
26 6230 25.778652
21 5261 23.969397
Для поиска контигов с аномально большим или аномально малым покрытием (более чем в 5 раз отличающимся от "типичного") с помощью средств Excel была определена медиана, которая оказалась равной 14.809562, а также среднее занчение = 527.0518744. (Ссылка на таблицу.) Это говорит о большом разбросе значений. Ниже вы можете видеть таблицу, содержащую информацию о некоторых контигах с аномальными покрытиями (в скобках указано во сколько раз значение покрытия больше или меньше среднего значения).
Таблица 2. Контиги с аномальным покрытием.
ID Длина (k-мер) Покрытие
979 1 565714 (больше в ~1074 раз)
1046 1 8392 (больше в ~16 раз)
-(~15 контигов) 1 - 5 1 (меньше в ~527 раз)

Анализ

С помощью программы megablast каждый из трёх самых длинных контигов был сравнен с уже имеющейся хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
Таблица 2. Сравнение контигов с наибольшей длиной и хромосомы Buchnera aphidicola.
ID Координаты Max score Total score Query cover (%) E-value Identities Alignment length Gaps
78 35162:42578 6935 6935 1 0.0 6227/7446(84%) 7427 68/7446(0%)
26 536553:542799 4577 4577 0 0.0 5037/6288(80%) 6258 113/6288(1%)
21 584329:587054 1277 1277 0 0.0 2100/2777(76%) 5289 110/2777(3%)
Ниже вы можете видеть карты локального сходства для соответствующих контигов. (Ось X - бактериальный геном, Y - контиг).
Рис. 3. NODE_78
Как видно из карты локального сходства, контиг 78 инвертирован относительно бактериального контига. Выравнивание было одно. Вся находка расположилась без разрывов на карте, что говорит о достоверности этой находки.
Рис. 4. NODE_26
Ситуация аналогична предыдущей: последовательность контига 26 инвертирована, расположена без разрывов.
Рис. 5. NODE_21
В данном случае инверсии не наблюдается. Находка вновь расположена без разрывов.

Источники:

[1]: ENA (European Nucliotide Archive). Run: SRR4240387

[2]: Wikipedia. Buchnera (bacterium)

[3]: Wikipedia. Acyrthosiphon pisum


Titova Anastasiya, 2017 ©