Код доступа проекта по секвенированию бактерии Buchnera aphidicola, который был предоставлен мне, - SRR4240378. Перейдя на сайт ENA, я скачать соответствующий файл в формате fastq с использованием следующей команды:
wget ''ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz''
Далее я решил создать файл в формате fasta, содержащий все возможные последовательности адаптеров, которые необходимо вырезать из предоставленных прочтений. Это было сделано следующей командой:
cat /mnt/scratch/NGS/adapters/* > adapters.fasta
Следующей командой я удалил перечисленные в файле adapters.fasta адаптеры из чтений в файле SRR4240378.fastq.gz посредством программы Trimmomatic:
java -jar /usr/share/java/trimmomatic.jar SE -threads 10 -phred33
-trimlog trim.log SRR4240378.fastq.gz SRR4240378_trimmed_adapt.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7
После работы программы количество чтений сократилось с 4420587 до 4338744. То есть 81843 (1.85%) чтений было удалено.
Далее я удалил с 3'-конца чтений нуклеотиды, которые не прошли порог качества (то есть имели качество меньше 20), сохраняя при этом минимальную длину в 32 нуклеотидов:
java -jar /usr/share/java/trimmomatic.jar SE -threads 10 -phred33 -trimlog trim2.log SRR4240378_trimmed_adapt.fastq.gz SRR4240378_full_trimmed.fastq.gz TRAILING:20 MINLEN:32
При этом теперь из 4338744 чтений осталось 4154738. Было отброшено 184006 чтений (4.24%)
Исходный файл (SRR4240378.fastq.gz) имел размер в 91M, после обрезки адаптеров размер сократился до 89M (SRR4240378_trimmed_adapt.fastq.gz), а после обрезания 3'-конца упал до 84M (SRR4240378_full_trimmed.fastq.gz)
Затем я сформировал директорию (Assembly_SRR4240378) с k-мерами (k-мерами длиной 31 в нашем случае) из обработанных чтений с помощью следующей команды:
velveth Assembly_SRR4240378 31 -short -fastq.gz SRR4240378_full_trimmed.fastq.gz
И, наконец, сама сборка была осуществлена командой velvetg, требующей в стандартном случае на вход лишь директорию, содержащую k-меры, подготовленные на предыдущем шаге:
velvetg Assembly_SRR4240378
Показатель N50 принял значение 7028.
Длины трёх самых длинных контигов - 36746, 19371 и 16745. Им соответствуют покрытия 20.02, 20.54 и 20.90.
С помощью сортировки по столбцу с показателем coverage (из файла stats.txt) я нашёл последовательности с наименьшим и наибольшим coverage, длина которых больше 2k (62 bp), поскольку только такие последовательности отображаются в файле contigs.fa. Ниже приведены их заголовки из файла contigs.fa:
NODE_166_length_64_cov_2.843750
NODE_81_length_934_cov_102.748390
На рисунке №1 представлен DotPlot, полученный в результате выравнивания самого длинного контига (36746) на геном Buchnera aphidicola с AC CP009253 с помощью алгоритма megablast. Контиг картировался по семи участкам, характеристики выравниваний которых я привожу ниже.
Фрагмент генома
Identities
Gaps
480874 - 481545
564/686(82%)
20/686(2,9%)
481997 - 488106
4621/6238(74%)
308/6238(4,9%)
493487 - 494864
1109/1384(80%)
13/1384(0,94%)
495033 - 495148
108/120(90%)
5/120(4,2%)
496111 - 500325
3255/4324(75%)
154/4324(3,6%)
500370 - 508806
6516/8617(76%)
351/8617(4,1%)
510438 - 516539
4897/6234(79%)
187/6234(2,9%)
Фрагмент генома
Identities
Gaps
573092 - 582686
7212/9822(73%)
461/9822(4%)
584329 - 587055
2100/2777(76%)
108/2777(3%)
Фрагмент генома
Identities
Gaps
144368 - 151796
5863/7536(78%)
243/7536(3%)
Как видно, этот контиг лучше всего картируется на геном (единым участком), хоть и не имеет никакого преимущества в идентичности (количество совпадающих оснований).
В целом можно сказать, что самый большой контиг картировался на геном наименее идеально, сформировав 7 отдельных выравниваний, одно из которых имеет протяжённость всего лишь в 120 нуклеотидов.
Кирилл Кузенков, студент второго курса ФББ