Практикум 15

Скачивание и очистка

Команда для скачивания архива с чтениями:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz

Команда для объединения файлов с адаптерами:

cat /mnt/scratch/NGS/adapters/* > adapters.fasta

Удаление остатков адаптеров и очистка чтений производилась в программе trimmomatic посредством следующих команд:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356.fastq.gz SRR4240356_trims.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356_trims.fastq.gz SRR4240356_trims2.fastq.gz TRAILING:20 MINLEN:32

До обработки файл весил 167 Мб. После первой операции из 7511529 чтений было удалено 153091 остатков адаптеров (2,04%), и файл стал весить 164 Мб. После второй операции из 7358438 чтений было удалено 305092 с длиной меньше 32 нуклеотидов (4,15%), и файл стал весить 155 Мб.

Сборка

Сборка генома осуществлялась при помощи программ velveth и velvetg:

velveth Assem 31 -fastq.gz -short SRR4240356_trims2.fastq.gz

velvetg Assem

В выдаче оказалось несколько файлов с информацией о контигах, полученных в результате сборки (к примеру, файлы stats.txt и contigs.fa. Всего контигов 286, N50 = 65554. Самые длинные контиги:

ID Длина Покрытие
8 111962 38.66
6 107488 34.17
10 80939 37.52

Контиги с аномально большой величиной покрытия имеют покрытие преимущественно в районе 400. Например, NODE_1_length_21_cov_421.761905 (421.76) и NODE_27_length_282_cov_458.429078 (458.43). Самое большое значение покрытия имеет контиг 64 с длиной 1 и покрытием 266951.00. Также в результате работы программы обнаружилось несколько контигов с длиной 1 и с покрытием 1.00.

Megablast

Для каждого контига получилось большое число участков выравнивания (27, 19, 11), поэтому я скачал Hit Table всех выравниваний каждого контига по отдельности. В таблицах приведены идентичность (%), длины выравниваний, число однонуклеотидных различий, число открытий гэпов, координаты начала и конца участка контига, а также начала и конца участка хромосомы, evalue и вес выравнивания.

Hit Table для NODE_8_length_111962_cov_38.660198

Hit Table для NODE_6_length_107488_cov_34.174030

Hit Table для NODE_10_length_80939_cov_37.524174

Рис. 1. DotPlot для контига NODE_8.

Рис. 2. DotPlot для контига NODE_6.

Рис. 3. DotPlot для контига NODE_10.

Контиг 8 выравнивается на участок 451729—555905 и покрывает примерно 17,4% хромосомы. Контиг выровнялся достаточно хорошо, особенно в районе конца; значимых делеций не выявлено.





Контиг 6 выравнивается на участок 220869—320549 и покрывает 16,7% хромосомы. Разрывы в выравнивании говорят о большом количестве мутационных событий на данном участке картирования. Также можно заметить наличие крупной делеции в хромосоме (координаты на контиге 84-92 Kb, в геноме 302-308 Kb; разница в длине промежутков около 2000 bp).


Контиг 10 выравнивается на участок 127825—195400 и покрывает 11% хромосомы. Судя по наклону, этот контиг картировался на геном в обратном направлении, то есть, изначально был прочитан наоборот.