Заданный код доступа: SRR4240360. Я скачал чтения при помощи команды
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240360/SRR4240360.fastq.gz
Для удаления адаптеров была использована программа:
TrimmomaticSE -phred33 ./SRR4240360.fastq.gz seqtrimd.fastq.gz ILLUMINACLIP:adapt.fa:2:7:7
где adapt.fa - файл с адаптерами, собранными вместе из разных файлов
В исходном файле было 8'254'632 чтений. После триммирования оказалось 8'212'774. Удалилось 41'858 чтений.
Для удаления чтений плохого качества была запущена программа:
TrimmomaticSE -phred33 ./SRR4240360.fastq.gz trseq.fastq.gz ILLUMINACLIP:adapt.fa:2:7:7 TRAILING:20 MINLEN:32
В исходном файле было 8'254'632 чтений. После триммирования оказалось 7'915'474. Удалилось чтений 339'158.
Размер файла изменился с исходных 194 Mb до 184 Mb
Риды проК-меризованы при помощи команды:
velveth redvelvet 31 -short -fastq.gz trseq.fastq.gz
С помощью команды был собран геном:
velvetg ./redvelvet
N50 полученной сборки: N50=43070.
Полученный stats.txt файл был проанализирован при помощи команды:
sort -k2rn stats.txt | less
полученные длины самых длинных контигов: 1, 5, 4
1. 113474: покрытие 33,525460
5. 83603: покрытие 33,646065
4. 64155: покрытие 35,847323
Также при анализе нашлись контиги с аномальным значением покрытия: например контиг 565, чья длина равна 31, а покрытие 1,613. Еще пример это контиг 40 длиной 69 и покрытием 109,39
Полученные контиги были выделены в отдельные файлы. После чего был запущен megablast на геном огранизма.
Первый контиг: одна находка. Координаты: 449411..555905 |
e-value: 0 |
Несовпадений: 3488 |
Идентичность 81,43% |
Гэпов: 399 |
Четвертый контиг: одна находка. Координаты: 2004..32745+599832..627104 |
e-value: 0 |
Несовпадений: 1738 |
Идентичность 78,38% |
Гэпов: 201 |
Пятый контиг: одна находка. Координаты: 98408..173180 |
e-value: 0 |
Несовпадений: 2711 |
Идентичность 74,95% |
Гэпов: 430 |