Для того чтобы получить файл с необходимыми чтениями была использована команда:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240360/SRR4240360.fastq.gz
Последовательности адаптеров были скопированыы из папки adapters в рабочую командой :
cat /mnt/scratch/NGS/adapters/* >> adapters.fasta
Далее нужно удалить адаптеры из чтений, сделано это командой:
java -jar /usr/share/java/trimmomatic.jar SE -threads 10 -phred33 SRR4240360.fastq.gz cleaned1.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 2> log.txt
Файл с выводом тут.Было удалено 41858 чтений что составляет 0,51%.Далее удалялись с 3' конца нуклеотиды с качеством ниже 20,при этом минимальной длиной является 32 нуклеотида.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 cleaned1.fastq final.fastq TRAILING:20 MINLEN:32 2> log2.txt
Файл с выводом тут.Было удалено 297300 чтений что составляет 3.62%.Изначально файл весил 873 MB (после разархивирования),после первой "чистки" весил 868 МВ,в финальной версии он весит 835 МВ.
Для того чтобы создать k-меры длинной k=31 была использована команда:
velveth velveth 31 -fastq -short final.fastq.gz
Для сборки была использована команда velvetg,сама команда ниже:
velvetg velveth 2> log3.txt
Файл с выводом тут.В этом файле есть значение N50 составляющее 43070.По файлам contigs.fa(сами контиги) и stats.txt (статистика по контигам) можно определить самые большие контиги.
ID контига | Длина | Покрытие |
---|---|---|
1 | 113474 | 33.525 |
5 | 83603 | 33.646 |
4 | 64155 | 35,85 |
Контиг 173 имеет какое-то нереальное покрытие, равное 134953, но это может объясняться его длинной в 1 нуклеотид.Самое маленькое покрытие у контига 221 равное 1,он тоже длиной в 1 нуклеотид.
После работы с Megablast были получены следующие данные:
ID контига | E-value | Query Cover % | Identity % | Total score |
---|---|---|---|---|
1 | 0.0 | 76 | 81,43 | 51702 |
4 | 0.0 | 70 | 78.38 | 628164 |
5 | 0.0 | 58 | 74.95 | 26995 |
Контиг с ID 1.Фрагмент 1:528794 до 550219,гэпы 545/21721(2%).Фрагмент 2:550361 до 555905,гэпы 127/5655(2%).Фрагмент 3:467412 до 474667,гэпы 208/7389(2%).Фрагмент 4:500370 до 508806,гэпы 345/8614(4%).Фрагмент 5:510438 до 516539,гэпы 194/6238(3%).Фрагмент 6:523105 до 528679,гэпы 210/5687(3%).Фрагмент 7:462496 до 467421,гэпы 162/5015(3%).Фрагмент 8:481997 до 488106,гэпы 308/6238(4%).Фрагмент 9:474844 до 480660,гэпы 250/5971(4%).Фрагмент 10:449411 до 454069,гэпы 152/4732(3%).Фрагмент 11:517766 до 521500,гэпы 99/3782(2%).Фрагмент 12:496111 до 500325,гэпы 2153/4323(3%).Фрагмент 13:493487 до 494864,гэпы 13/1384(0%).Фрагмент 14:480874 до 481545,гэпы 20/686(2%).Фрагмент 15:495033 до 495148,гэпы 5/120(4%).
Контиг с ID 4.Фрагмент 1:2004 до 11103,гэпы 256/9223(2%).Фрагмент 2:613658 до 620926,гэпы 184/7379(2%).Фрагмент 3:599832 до 604795,гэпы 170/5046(3%).Фрагмент 4:621055 до 627104,гэпы 248/6173(4%).Фрагмент 5:23067 до 28363,гэпы 219/5433(4%).Фрагмент 6:17962 до 20182,гэпы 30/2231(1%).Фрагмент 7:14727 до 17919,гэпы 88/3226(2%).Фрагмент 8:30013 до 32745,гэпы 84/2777(3%).Фрагмент 9:20358 до 22183,гэпы 51/1851(2%).Фрагмент 10:611633 до 613671,гэпы 66/2086(3%).Фрагмент 11:13994 до 14465,гэпы 9/478(1%).Фрагмент 12:611229 до 611524,гэпы 2/297(0%).
Контиг с ID 5.Фрагмент 1:127825 до 140555,гэпы 548/13010(4%).Фрагмент 2:153752 до 161738,гэпы 264/8168(3%).Фрагмент 3:144368 до 151796,гэпы 243/7536(3%).Фрагмент 4:101712 до 108876,гэпы 215/7274(2%).Фрагмент 5:161898 до 166752,гэпы 112/4914(2%).Фрагмент 6:166750 до 173180,гэпы 159/6517(2%).Фрагмент 7:126623 до 127815,гэпы 11/1199(0%).Фрагмент 8:98408 до 99303,гэпы 9/901(0%).