Сборка генома

Скачивание: wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/007/SRR4240357/SRR4240357.fastq.gz
Размер файла - 355.48664 Мб
Генерируем файл с адаптерами: cat /P/y18/term3/block3/adapters/*.fa > adapters.fa
Удаление адаптеров: java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240357.fastq.gz SRR4240357.trim.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7
Выдача: Input Reads: 8098979 Surviving: 7937705 (98,01%) Dropped: 161274 (1,99%)
Размер файла - 348.696383 Мб
Удаление нуклеотидов с конца с плохим качеством: java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240357.trim.fastq.gz SRR4240357.qual.fastq.gz TRAILING:20
Выдача: Input Reads: 7937705 Surviving: 7898849 (99,51%) Dropped: 38856 (0,49%)
Размер файла - 321.984873 Мб
Оставим только чтения длины не менее 32: java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240357.qual.fastq.gz SRR4240357.ready.gz MINLEN:32
Выдача: Input Reads: 7898849 Surviving: 7000037 (88,62%) Dropped: 898812 (11,38%)
Размер файла - 293.51736 Мб
Запуск velveth: velveth velveth_31 31 -fastq.gz -short SRR4240357.ready.gz
velveth velveth_27 27 -fastq.gz -short SRR4240357.ready.gz
Запуск velvetg: velvetg velveth_31
Выдача: Final graph has 390 nodes and n50 of 18988, max 68573, total 658548, using 0/7000037 reads
Среднее покрытие: 1062.83. На среднее сильно повлиял выброс - колоссальное покрытие контига с ID 326 (371458.000000, длина 1). Также есть 10 контигов с покрытием 1, их длина варьируется от 1 до 7. 3 самых длинных контига: 5 (длина 68573, покрытие 29.758972), 18 (длина 46727, покрытие 28.502408), 12 (длина 38871, покрытие 27.715366).
megablast
На сайте blast в разделе blastn выбираем Align two or more sequences, в одно окно помещаем AC генома (CP009253), в другое - последовательность контига из файла velveth_31/contigs.fa. Для того, чтобы вытащить последовательность, применяем команду samtools faidx contigs.fa, из полученного fai файла вытаскиваем нужный идентификатор последовательности. Затем командой, например, samtools faidx contigs.fa NODE_5_length_68573_cov_29.758972 > conitg_5.fasta получаем последовательность контига и вбиваем её в бласт.
анализ результатов
Для каждого контига было получено только одно выравнивание на хромосому.
5 контиг: identity 77% (5690/7387), gaps 2% (206/7387), выравнивание по обратной цепи. На dot plot-е видно, что довольно протяженные участки выравнивания прерываются также довольно протяжёнными вставками в контиг. На нём также видна и ориентация цепей (по наклону).
im
Рис. 1.

dot plot для 5 контига



18 контиг: identity 74% (7115/9604), gaps 4% (387/9604), выравнивание по + цепи. Вставки в dot-plot-е тоже видны, однако, они менее протяженные и более частые, чем в 5 контиге.
im
Рис. 2.

dot plot для 18 контига



12 контиг: identity 81% (3340/4130), gaps 1% (59/4130), выравнивание по + цепи. На dot-plot-е невооружённым глазом видны две не такие уж большие вставки.
im
Рис. 3.

dot plot для 18 контига



k=27 velvetg velveth_27
Выдача: Final graph has 2272 nodes and n50 of 7653, max 35772, total 672493, using 0/7000037 reads
n50 в 2.5 раза ниже. Логично. N50-наибольшее число такое, что контигами большей длины покрыто 50% генома. Так как коротких контигов после снижения порога стало больше, результат ожидаем. По изменению можно на глаз определять количество контигов более короткой длины.