Сборка de novo
Мой SRR4240358 является коротким ридом генома бактерии Buchnera aphidicola str. Tuc7 с длиной 39, полученный по технологии Illumina.
Работа была начата со скачивания архива в директорию /mnt/scratch/NGS/alinooova командой wget.
Подготовка чтений программой trimmomatic.
*справка о программе:
Для повышения эффективности и точности анализа NGS данных необходимо их "очистить" от бессмылсенных последовательностей. Для этого применяется такой инструмент как trimmomatic, удаляющий адаптеры и выступающий фильтром качества.
Так как чтение не парное, а одиночное, то программа использовалась в режиме SE, когда есть только один входной файл и один отфильтрованный выходной файл.
6 адаптеров из директории /mnt/scratch/NGS/adapters были объеденены командой cat /mnt/scratch/NGS/adapters/*.fa > united_adapters.fa
При вырезании адпатеров оказалось, что они составляли 1.66% от последовательности прочтения.
Вырезание адаптеров осуществлялось командой: java -jar /usr/share/java/trimmomatic.jar SE -threads 20 /mnt/scratch/NGS/alinooova/SRR4240358.fastq.gz /mnt/scratch/NGS/alinooova/SRR4240358_noadapt.fastq.gz ILLUMINACLIP:united_adapters.fa:2:7:7 2> no_adapters.txt
Далее с правых концов были удалены нуклеотиды с качеством ниже 20, оставляя только чтения длиной не меньше 32 нуклеотидов. Это было сделано благодаря команде: java -jar /usr/share/java/trimmomatic.jar SE -threads 20 /mnt/scratch/NGS/alinooova/SRR4240358_noadapt.fast.gz /mnt/scratch/NGS/alinooova/SRR4240358_highquolity.fastq.gz TRAILING:20 MINLEN:32 2>high_quality_reads.txt
Полученный файл с результатами выполненной команды: high_quality_reads.txt
Итого было удалено 22.7% нуклеотидов и размер файла с поледовательностью изменился с 493 Мб до 356 Мб.
Подгтовка к-меров программой velvetg
Для дальнейшей сборки генома создавались 31-меры командой: velveth /mnt/scratch/NGS/alinooova/zad3_kmers 31 -short -fastq.gz /mnt/scratch/NGS/alinooova/SRR4240358_highquolity.fastq.gz , оценка и сборка генома осуществлялась командой: velvetg zad3_kmers > zad3 .
На основе полученного файла было установлено, что параметр N50 сборки составил 8600.
При запуске команды velveth в директории был получен файл со статистическими данными и отсортирован: sort -r -n -k 2 stats.txt | less
Таблица 1. Данные о самых длинных контигах.
ID | Length | Coverage |
---|---|---|
56 | 19821 | 29.47 |
34 | 18714 | 29.92 |
40 | 16436 | 30.79 |
Для проверки наличия контигов с аномальным покрытием применялась команда: cut -f6 stats.txt | sort -h. Выяснилось, что контиги с наибольшими покрытиями имеют значения 11576.0,552.636 и 499.0, а с наименьшие значения варьируются от 1 до 6.
Анализ
Командой seqretsplit -filter contigs.fa dir/name.format контиги наибольшей длины были выделены в отдельные файлы и картированы на хромосому Buchnera aphidicola (GenBank/EMBL AC — CP009253).
Алгоритмом megablast с настройками по умолчанию построено выравнивание (рис.1) самого длинного контига- ID56.
Координаты контига | Координаты хромосомы | Identity | Gaps | SNP |
---|---|---|---|---|
5342-13787 | 500370-508806 | 76% | 4% | 3949 |
15478-19851 | 510438-514772 | 81% | 1% | 3520 |
948-5226 | 496111-500325 | 75% | 3% | 1927 |
Контиг картировался на хромосому 3 фрагментами и, исходя из Dotplot'а видно, что между выровненными последовательностями имеется только одна делеция и, в основном, линия непрерывна, что говорит о высоком проценте покрытия. Прямая совпадений имеет положительный наклон, т.е. последовательность контига записана в прямом направлении.
Следующим анализируем контигом стал контиг ID34. Его картирование на хромомосму легло 6 фрагментами (рис.2). Можно предположить, что промежутки между выравниваниями это однобуквенные полиморфизмы, которые помешали алгоритму продолжить выравнивание на этот участок.
Координаты контига | Координаты хромосомы | Identity | Gaps | SNP |
---|---|---|---|---|
9387-11586 | 17962-20171 | 85% | 1% | 2278 |
15025-18744 | 23067-26764 | 78% | 3% | 2163 |
6139-9309 | 14727-17919 | 76% | 2% | 1583 |
1-2495 | 8599-11103 | 78% | 1% | 1581 |
12176-14000 | 20358-22183 | 82% | 2% | 1476 |
5505-5979 | 13994-14465 | 82% | 1% | 398 |
Следующим для сравнения с хромосомой стал контиг ID40. Последовательность данного контига легла довольно хорошо на последовательность хромосомы (рис.3), без каких-либо значимых перестроек.
Координаты контига | Координаты хромосомы | Identity | Gaps | SNP |
---|---|---|---|---|
3-6889 | 474242-467412 | 77% | 2% | 3703 |
6919-11860 | 467421-462496 | 77% | 3% | 2719 |