Задания практикума 15 (cборка de novo)

Подготовка чтений программой trimmomatic.

Удалим адаптеры. Программа trimmomatic:

java -jar /usr/share/java/trimmomatic.jar SE 
-phred33 SRR4240379.fastq SRR4240379_trimm.fastq 
ILLUMINACLIP:adapters.fasta:2:7:7

После триммирования было убрано 1.76% процента от входной последовательности. Input Reads: 7400155 Surviving: 7269852 (98.24%) Dropped: 130303 (1.76%)

Удаление с правых концов чтений нуклеотиды с качеством ниже 20, удаление чтений, длина которых меньше 32 нуклеотидов..

 java -jar /usr/share/java/trimmomatic.jar SE 
-phred33 SRR4240379_trimm.fastq SRR4240379_outtrimm.fastq 
TRAILING:20 MINLEN:32

После этого было удалено 4.07% от входной последовательности.

Input Reads: 7269852 Surviving: 6974267 (95.93%) Dropped: 295585 (4.07%) TrimmomaticSE: Completed successfully

Размеры файлов: изначально: 782194222, после первого триммирования: 768146676, после второго: 735535926.

Используем программу velveth

velveth velvet/ 31 -short -fastq SRR4240379_outtrimm.fastq

Здесь velvet/ — директория для сборки, 31 — размер k-мера для построения графа, -short — указание на короткие непарные прочтения.

velvetg . -cov_cutoff auto

Final graph has 75 nodes and n50 of 27786, max 49912, total 655105, using 0/6974267 reads

Получила таблицу со всеми прочтениями. Проанализировала ее и нашла самые длинные прочтения

Таблица

Для удобства каждое из трех прочтений я вывела в отдельный файл: прочтение 5 , прочтение 6 , прочтение 9.

Таблица:cписок и характеристики самых длинных прочтений.

ID	Длина	Покрытие
6	49912	35.6
9	49262	34.8
5	33085	36.3

Blast с CP009253:Buchnera aphidicola

	6	9	5
Координаты хромосомы	127825 - 173180	500370 - 529211	467412-480660
Score	5421		10336
Идентичность	75%	76%	77.03%
Gaps	4%	4%	2%
E-value	0.0	0.0	0.0

Я указала координаты области в геноме бактерии, на которую выравниваются прочтения. Не указывала подробно координаты каждой части выровненного прочтения. Эту информацию при желании можно достать из blast. Ниже привожу на картинки, на которых видно, что прочтения выровнялись не ровно, а с инделями. Где-то маленькими, где то существенно крупными. Это ожидаемо, так как мы осуществляем сборку нового генома, выравниваем на родственный организм.

Прочтение 5

Прочтение 6

Прочтение 9