Сборка генома de novo

Получение чтений и общего файла с адаптерами

Для получения файла с ридами была использована следующая команда:

  wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240360/SRR4240360.fastq.gz  

После этого последовательности адаптеров были скопированы из папки adapters в рабочую папку и объединены в общий файл. Для этого использовались следующие команды:

 cat /mnt/scratch/NGS/adapters/* >> all.fasta 

Очистка ридов с помощью trimmomatic

Команда для удаления адаптерных последовательностей из ридов:

 java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 SRR4240361.fastq.gz cleaned1.fastq.gz ILLUMINACLIP:all.fasta:2:7:7 2> log.txt 

Файл с логом можно посмотреть здесь. Видно, что процедура прошла успешно, удалено 41858 (0.51%) чтения. Следующим шагом было удаление с правого конца чтений нуклеотидов с качеством меньше 20, и последующее удаление чтений с длиной меньше 32 нуклеотидов. Перед этим фаил ридов с удаленными адаптерами был разархивирован командой:

 gunzip  cleaned1.fastq.gz 
Команда, выполняюшая фильтрацию:
 java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 cleaned1.fastq filtered.fastq TRAILING:20 MINLEN:32 2> log2.txt 

Файл с логом можно посмотреть здесь.В результате фильтрации было удалено 297300 (3.62%) чтений. Размер файла: до фильтрации - 832 Мб после удаления адаптерных последовательностей - 827 Мб после удаления нуклеотидов с низким качеством и слишком коротких ридов - 796 Мб

Velveth

Для создания k-меров на основе наших чтений длиной 31 нуклеотид была введена следующая команда:

 velveth velveth 31 -fastq -short filtered.fastq.gz 

В этой команде -fastq задаёт формат входного файла, -short говорит о том, что короткие чтения. На выходе получили директорию velveth с несколькими файлами в ней.

Запуск velvetg

Была запущена программа velvetg. Команда запуска представлена ниже:

 velvetg velveth 2> log3.txt 

Лог можно посмотреть здесь. Из него можно получить информацию о N50 - значение этого параметра равно 43070. Также в результате выполнения этой программы появились файлы contigs.fa и stats.txt. В файле contigs.fa представлены сами контиги, в stats.txt - статистика по этим контигам.

Информация о самых больших контигах была получена с помощью команды:

sort -n -r -k 2 stats.txt | head

Ниже представлена информация о трёх самых длинных контигах

ID контига Длина Покрытие
1 113474 33.525
5 83603 33.646
4 64155 35,85
Контиг с ID 174 имеет аномально большое покрытие, равное 134953, это можно объяснить его длиной, равной единице. Контиг 227 с самым маленьким покрытием имеет длину в 1 нуклеотид и покрытие, равное 1. ## Megablast C помощью seqretsplit из файла contigs.fa были получены интересующие нас контиги. После этого было произведено сравнение программой megablast c референсным геномом. В Таблице можно найти информацию о трёх произведённых выравниваниях.
ID контига E-value Query Cover Identity Total Score Ссылка на отчёт
1 0.0 76% 81.43% 51702 файл
4 0.0 70% 78.38% 28200 файл
5 0.0 58% 74.95% 26995 файл

image.png Контиг с ID 1 соответсвует 528794 до 550219 референса, число гэпов 545 (2%)

image.png Контиг с ID 4 соответсвует 2004 дo 11103 референса, число гэпов 256 (2%)

image.png Контиг с ID 5 соответсвует 127825 дo 140555 референса, число гэпов 548 (4%)