Скачивание: wget
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/007/SRR4240357/SRR4240357.fastq.gz
Размер файла - 355.48664 Мб
Генерируем файл с адаптерами: cat /P/y18/term3/block3/adapters/*.fa >
adapters.fa Удаление адаптеров: java -jar
/nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33
SRR4240357.fastq.gz SRR4240357.trim.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7
Выдача: Input Reads: 8098979 Surviving: 7937705 (98,01%) Dropped: 161274 (1,99%)
Размер файла - 348.696383 Мб
Удаление нуклеотидов с конца с плохим качеством: java -jar
/nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33
SRR4240357.trim.fastq.gz SRR4240357.qual.fastq.gz TRAILING:20
Выдача: Input Reads: 7937705 Surviving: 7898849 (99,51%) Dropped: 38856 (0,49%)
Размер файла - 321.984873 Мб
Оставим только чтения длины не менее 32: java -jar
/nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33
SRR4240357.qual.fastq.gz SRR4240357.ready.gz MINLEN:32
Выдача: Input Reads: 7898849 Surviving: 7000037 (88,62%) Dropped: 898812
(11,38%)
Размер файла - 293.51736 Мб
Запуск velveth:
velveth velveth_31 31 -fastq.gz -short
SRR4240357.ready.gz
velveth velveth_27 27 -fastq.gz -short
SRR4240357.ready.gz
Запуск velvetg: velvetg velveth_31
Выдача: Final graph has 390 nodes and n50 of 18988, max 68573, total 658548, using
0/7000037 reads
Среднее покрытие: 1062.83. На среднее
сильно повлиял выброс - колоссальное покрытие
контига с ID 326 (371458.000000, длина 1). Также есть 10 контигов с покрытием 1,
их длина варьируется от 1 до 7. 3 самых длинных контига:
5 (длина 68573, покрытие 29.758972), 18 (длина 46727, покрытие 28.502408),
12 (длина 38871, покрытие 27.715366).
megablast
На сайте blast в разделе blastn выбираем Align two or more sequences, в
одно окно помещаем AC генома (CP009253), в другое - последовательность
контига из файла velveth_31/contigs.fa. Для того, чтобы вытащить
последовательность, применяем команду samtools faidx contigs.fa,
из полученного fai файла вытаскиваем нужный идентификатор последовательности.
Затем командой, например, samtools faidx contigs.fa
NODE_5_length_68573_cov_29.758972 > conitg_5.fasta получаем последовательность
контига и вбиваем её в бласт.
анализ результатов
Для каждого контига было получено только одно выравнивание на хромосому.
5 контиг: identity 77% (5690/7387), gaps 2% (206/7387), выравнивание по
обратной цепи. На dot plot-е видно, что довольно протяженные участки
выравнивания прерываются также довольно протяжёнными вставками в контиг. На нём
также видна и ориентация цепей (по наклону).
Рис. 1.
dot plot для 5 контига
18 контиг: identity 74% (7115/9604), gaps 4% (387/9604), выравнивание по + цепи.
Вставки в dot-plot-е тоже видны, однако, они менее протяженные и более частые,
чем в 5 контиге.
Рис. 2.
dot plot для 18 контига
12 контиг: identity 81% (3340/4130), gaps 1% (59/4130), выравнивание по + цепи.
На dot-plot-е невооружённым глазом видны две не такие уж большие вставки.
Рис. 3.
dot plot для 18 контига
k=27
velvetg velveth_27
Выдача: Final graph has 2272 nodes and n50 of 7653, max 35772, total 672493,
using 0/7000037 reads
n50 в 2.5 раза ниже. Логично. N50-наибольшее число такое, что контигами большей
длины покрыто 50% генома. Так как коротких контигов после снижения порога стало
больше, результат ожидаем. По изменению можно на глаз определять количество
контигов более короткой длины.