Сборка генома de novo¶

Получение чтений и общего файла с адаптерами¶

Для получения файла с ридами была использована следующая команда:

  wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240360/SRR4240360.fastq.gz

После этого последовательности адаптеров были скопированы из папки adapters в рабочую папку и объединены в общий файл. Для этого использовались следующие команды:

 cat /mnt/scratch/NGS/adapters/* >> all.fasta

Очистка ридов с помощью trimmomatic¶

Команда для удаления адаптерных последовательностей из ридов:

 java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 SRR4240361.fastq.gz cleaned1.fastq.gz ILLUMINACLIP:all.fasta:2:7:7 2> log.txt

Файл с логом можно посмотреть здесь. Видно, что процедура прошла успешно, удалено 41858 (0.51%) чтения. Следующим шагом было удаление с правого конца чтений нуклеотидов с качеством меньше 20, и последующее удаление чтений с длиной меньше 32 нуклеотидов. Перед этим фаил ридов с удаленными адаптерами был разархивирован командой:

 gunzip  cleaned1.fastq.gz

Команда, выполняюшая фильтрацию:

 java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 cleaned1.fastq filtered.fastq TRAILING:20 MINLEN:32 2> log2.txt

Файл с логом можно посмотреть здесь.В результате фильтрации было удалено 297300 (3.62%) чтений. Размер файла: до фильтрации - 832 Мб после удаления адаптерных последовательностей - 827 Мб после удаления нуклеотидов с низким качеством и слишком коротких ридов - 796 Мб

Velveth¶

Для создания k-меров на основе наших чтений длиной 31 нуклеотид была введена следующая команда:

 velveth velveth 31 -fastq -short filtered.fastq.gz

В этой команде -fastq задаёт формат входного файла, -short говорит о том, что короткие чтения. На выходе получили директорию velveth с несколькими файлами в ней.

Запуск velvetg¶

Была запущена программа velvetg. Команда запуска представлена ниже:

 velvetg velveth 2> log3.txt

Лог можно посмотреть здесь. Из него можно получить информацию о N50 - значение этого параметра равно 43070. Также в результате выполнения этой программы появились файлы contigs.fa и stats.txt. В файле contigs.fa представлены сами контиги, в stats.txt - статистика по этим контигам.

Информация о самых больших контигах была получена с помощью команды:

sort -n -r -k 2 stats.txt | head

Ниже представлена информация о трёх самых длинных контигах

ID контига	Длина	Покрытие
1	113474	33.525
5	83603	33.646
4	64155	35,85

Контиг с ID 174 имеет аномально большое покрытие, равное 134953, это можно объяснить его длиной, равной единице. Контиг 227 с самым маленьким покрытием имеет длину в 1 нуклеотид и покрытие, равное 1. ## Megablast C помощью seqretsplit из файла contigs.fa были получены интересующие нас контиги. После этого было произведено сравнение программой megablast c референсным геномом. В Таблице можно найти информацию о трёх произведённых выравниваниях.

ID контига	E-value	Query Cover	Identity	Total Score	Ссылка на отчёт
1	0.0	76%	81.43%	51702	файл
4	0.0	70%	78.38%	28200	файл
5	0.0	58%	74.95%	26995	файл

Контиг с ID 1 соответсвует 528794 до 550219 референса, число гэпов 545 (2%)

Контиг с ID 4 соответсвует 2004 дo 11103 референса, число гэпов 256 (2%)

Контиг с ID 5 соответсвует 127825 дo 140555 референса, число гэпов 548 (4%)