Практикум 15

Получение чтений и общего файла с адаптерами

Для того чтобы получить файл с необходимыми чтениями была использована команда:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240360/SRR4240360.fastq.gz

Последовательности адаптеров были скопированыы из папки adapters в рабочую командой :

cat /mnt/scratch/NGS/adapters/* >> adapters.fasta

Подготовка чтений программой trimmomatic

Далее нужно удалить адаптеры из чтений, сделано это командой:

 java -jar /usr/share/java/trimmomatic.jar SE -threads 10 -phred33 SRR4240360.fastq.gz cleaned1.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 2> log.txt 

Файл с выводом тут.Было удалено 41858 чтений что составляет 0,51%.Далее удалялись с 3' конца нуклеотиды с качеством ниже 20,при этом минимальной длиной является 32 нуклеотида.

java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 cleaned1.fastq final.fastq TRAILING:20 MINLEN:32 2> log2.txt

Файл с выводом тут.Было удалено 297300 чтений что составляет 3.62%.Изначально файл весил 873 MB (после разархивирования),после первой "чистки" весил 868 МВ,в финальной версии он весит 835 МВ.

Velveth

Для того чтобы создать k-меры длинной k=31 была использована команда:

velveth velveth 31 -fastq -short final.fastq.gz 

Velvetg

Для сборки была использована команда velvetg,сама команда ниже:

velvetg velveth 2> log3.txt

Файл с выводом тут.В этом файле есть значение N50 составляющее 43070.По файлам contigs.fa(сами контиги) и stats.txt (статистика по контигам) можно определить самые большие контиги.


ID контига Длина Покрытие
1 113474 33.525
5 83603 33.646
4 64155 35,85

Контиг 173 имеет какое-то нереальное покрытие, равное 134953, но это может объясняться его длинной в 1 нуклеотид.Самое маленькое покрытие у контига 221 равное 1,он тоже длиной в 1 нуклеотид.

Megablast

После работы с Megablast были получены следующие данные:


ID контига E-value Query Cover % Identity % Total score
1 0.0 76 81,43 51702
4 0.0 70 78.38 628164
5 0.0 58 74.95 26995

Контиг с ID 1.Фрагмент 1:528794 до 550219,гэпы 545/21721(2%).Фрагмент 2:550361 до 555905,гэпы 127/5655(2%).Фрагмент 3:467412 до 474667,гэпы 208/7389(2%).Фрагмент 4:500370 до 508806,гэпы 345/8614(4%).Фрагмент 5:510438 до 516539,гэпы 194/6238(3%).Фрагмент 6:523105 до 528679,гэпы 210/5687(3%).Фрагмент 7:462496 до 467421,гэпы 162/5015(3%).Фрагмент 8:481997 до 488106,гэпы 308/6238(4%).Фрагмент 9:474844 до 480660,гэпы 250/5971(4%).Фрагмент 10:449411 до 454069,гэпы 152/4732(3%).Фрагмент 11:517766 до 521500,гэпы 99/3782(2%).Фрагмент 12:496111 до 500325,гэпы 2153/4323(3%).Фрагмент 13:493487 до 494864,гэпы 13/1384(0%).Фрагмент 14:480874 до 481545,гэпы 20/686(2%).Фрагмент 15:495033 до 495148,гэпы 5/120(4%).

Контиг с ID 4.Фрагмент 1:2004 до 11103,гэпы 256/9223(2%).Фрагмент 2:613658 до 620926,гэпы 184/7379(2%).Фрагмент 3:599832 до 604795,гэпы 170/5046(3%).Фрагмент 4:621055 до 627104,гэпы 248/6173(4%).Фрагмент 5:23067 до 28363,гэпы 219/5433(4%).Фрагмент 6:17962 до 20182,гэпы 30/2231(1%).Фрагмент 7:14727 до 17919,гэпы 88/3226(2%).Фрагмент 8:30013 до 32745,гэпы 84/2777(3%).Фрагмент 9:20358 до 22183,гэпы 51/1851(2%).Фрагмент 10:611633 до 613671,гэпы 66/2086(3%).Фрагмент 11:13994 до 14465,гэпы 9/478(1%).Фрагмент 12:611229 до 611524,гэпы 2/297(0%).

Контиг с ID 5.Фрагмент 1:127825 до 140555,гэпы 548/13010(4%).Фрагмент 2:153752 до 161738,гэпы 264/8168(3%).Фрагмент 3:144368 до 151796,гэпы 243/7536(3%).Фрагмент 4:101712 до 108876,гэпы 215/7274(2%).Фрагмент 5:161898 до 166752,гэпы 112/4914(2%).Фрагмент 6:166750 до 173180,гэпы 159/6517(2%).Фрагмент 7:126623 до 127815,гэпы 11/1199(0%).Фрагмент 8:98408 до 99303,гэпы 9/901(0%).