Сборка de novo

Мой SRR4240358 является коротким ридом генома бактерии Buchnera aphidicola str. Tuc7 с длиной 39, полученный по технологии Illumina.

Работа была начата со скачивания архива в директорию /mnt/scratch/NGS/alinooova командой wget.

Подготовка чтений программой trimmomatic.

*справка о программе:

Для повышения эффективности и точности анализа NGS данных необходимо их "очистить" от бессмылсенных последовательностей. Для этого применяется такой инструмент как trimmomatic, удаляющий адаптеры и выступающий фильтром качества.

Так как чтение не парное, а одиночное, то программа использовалась в режиме SE, когда есть только один входной файл и один отфильтрованный выходной файл.

6 адаптеров из директории /mnt/scratch/NGS/adapters были объеденены командой cat /mnt/scratch/NGS/adapters/*.fa > united_adapters.fa

При вырезании адпатеров оказалось, что они составляли 1.66% от последовательности прочтения.

Вырезание адаптеров осуществлялось командой: java -jar /usr/share/java/trimmomatic.jar SE -threads 20 /mnt/scratch/NGS/alinooova/SRR4240358.fastq.gz /mnt/scratch/NGS/alinooova/SRR4240358_noadapt.fastq.gz ILLUMINACLIP:united_adapters.fa:2:7:7 2> no_adapters.txt

Далее с правых концов были удалены нуклеотиды с качеством ниже 20, оставляя только чтения длиной не меньше 32 нуклеотидов. Это было сделано благодаря команде: java -jar /usr/share/java/trimmomatic.jar SE -threads 20 /mnt/scratch/NGS/alinooova/SRR4240358_noadapt.fast.gz /mnt/scratch/NGS/alinooova/SRR4240358_highquolity.fastq.gz TRAILING:20 MINLEN:32 2>high_quality_reads.txt

Полученный файл с результатами выполненной команды: high_quality_reads.txt

Итого было удалено 22.7% нуклеотидов и размер файла с поледовательностью изменился с 493 Мб до 356 Мб.

Подгтовка к-меров программой velvetg

Для дальнейшей сборки генома создавались 31-меры командой: velveth /mnt/scratch/NGS/alinooova/zad3_kmers 31 -short -fastq.gz /mnt/scratch/NGS/alinooova/SRR4240358_highquolity.fastq.gz , оценка и сборка генома осуществлялась командой: velvetg zad3_kmers > zad3 .

На основе полученного файла было установлено, что параметр N50 сборки составил 8600.

При запуске команды velveth в директории был получен файл со статистическими данными и отсортирован: sort -r -n -k 2 stats.txt | less

Таблица 1. Данные о самых длинных контигах.

ID Length Coverage
56 19821 29.47
34 18714 29.92
40 16436 30.79

Для проверки наличия контигов с аномальным покрытием применялась команда: cut -f6 stats.txt | sort -h. Выяснилось, что контиги с наибольшими покрытиями имеют значения 11576.0,552.636 и 499.0, а с наименьшие значения варьируются от 1 до 6.

Анализ

Командой seqretsplit -filter contigs.fa dir/name.format контиги наибольшей длины были выделены в отдельные файлы и картированы на хромосому Buchnera aphidicola (GenBank/EMBL AC — CP009253).

Алгоритмом megablast с настройками по умолчанию построено выравнивание (рис.1) самого длинного контига- ID56.

Рис 1.Dotplot хромосомы бактерии с самым длинным контигом.
Координаты контига Координаты хромосомы Identity Gaps SNP
5342-13787 500370-508806 76% 4% 3949
15478-19851 510438-514772 81% 1% 3520
948-5226 496111-500325 75% 3% 1927

Контиг картировался на хромосому 3 фрагментами и, исходя из Dotplot'а видно, что между выровненными последовательностями имеется только одна делеция и, в основном, линия непрерывна, что говорит о высоком проценте покрытия. Прямая совпадений имеет положительный наклон, т.е. последовательность контига записана в прямом направлении.

Следующим анализируем контигом стал контиг ID34. Его картирование на хромомосму легло 6 фрагментами (рис.2). Можно предположить, что промежутки между выравниваниями это однобуквенные полиморфизмы, которые помешали алгоритму продолжить выравнивание на этот участок.

Рис 2.Dotplot хромосомы бактерии с контигом ID34.
Координаты контига Координаты хромосомы Identity Gaps SNP
9387-11586 17962-20171 85% 1% 2278
15025-18744 23067-26764 78% 3% 2163
6139-9309 14727-17919 76% 2% 1583
1-2495 8599-11103 78% 1% 1581
12176-14000 20358-22183 82% 2% 1476
5505-5979 13994-14465 82% 1% 398

Следующим для сравнения с хромосомой стал контиг ID40. Последовательность данного контига легла довольно хорошо на последовательность хромосомы (рис.3), без каких-либо значимых перестроек.

Рис 3.Dotplot хромосомы бактерии с контигом ID40.
Координаты контига Координаты хромосомы Identity Gaps SNP
3-6889 474242-467412 77% 2% 3703
6919-11860 467421-462496 77% 3% 2719