De novo genome assembly

Скачивание и подготовка чтений

Изучаемые одноконцевые чтения из проекта по секвенированию Buchnera aphidicola, полученные по технологии Illumina (AC: SRR4240356), скачиваются следущей командой.

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz

Далее проводится анализ исходныч ридов, в том числе качества. Визуализация доступна со ссылке.

fastqc SRR4240356.fastq.gz

Адаптеры были записаны с в файл, копия которого доступна по ссылке.

cat /mnt/scratch/NGS/adapters/*SE.fa > adapters.fasta

С использованием этого файла адаптеры были удалены из ридов программой trimmomatic.

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356.fastq.gz SRR4240356_clipped.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 2> clipping.log

Далее с правых концов были удалены позиции с качеством меньше 20 и оставлены только чтения длиной от 32 нуклеотидов. По информации из логов было удалено 299579 чтений, что составляет 4.07% от всех.

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356_clipped.fastq.gz SRR4240356_trimmed.fastq.gz TRAILING:20 MINLEN:32 2> trimming.log

Сборка

Визуализация анализа триммированных чтений доступна по ссылке.

fastqc SRR4240356_out.fq.gz

Далее были подготовлены k-меры длиной 31, которые были помещены в директория velveth.

velveth velveth 31 -fastq.gz SRR4240356_trimmed.fq.gz -short

Сборка с помощью полученных k-меров была осуществлена с помощью velvetg. Согласно логам N50 составил 6554. Информация о каждом из контигов доступна по ссылке на копию файла stats.txt. Последовательности контигов были получены из файла contigs.fa, в котором также содержалась информация о них.

velvetg velveth 2> velvetg.log

Все контиги с аномально малым покрытием (порядка единицы) составляли единицы-cотни нуклеотидов. Интерес же представлял контиг 64 длиной всего в нуклеотид с необъяснимо большим покрытием 266957 (в contigs.fa отсутствует).

Таблица 1. Самые длинные контиги
ID Длина Покрытие
8 111962 38.668870
6 107488 34.195585
10 80939 37.546325

Выравнивание контигов на хромосому

Самые длинные контиги из таблицы выше далее были выровнены с помощью megablast на хромосому изучаемой бактерии (АС: CP009253). В дополнительных параметрах было выставлено E-value 0.01. Для контига 8, контига 6 и контига 10 megablast выдал по одному результату, в каждом из которых было несколько выравниваний. Из dotplot'ов видно, что котиг 10 был записан в обратном порядке. Инверсий и дупликаций нигде не наблюдалось.

Рис. 1. Выравнивание контига 8 на хромосому
Рис. 2. Выравнивание контига 6 на хромосому
Рис. 3. Выравнивание контига 10 на хромосому

Характеристики выравниваний

Таблица 2. Участки контига 8, соответствующие хромосоме
Координаты генома Координаты контига Гэпы SNPs
451729-454069 2390-4733 55 488
462496-467421 14624-19565 162 992
467412-474667 19595-26906 208 1489
474844-480660 27009-32884 255 1288
480874-481545 33090-33769 20 102
481997-488106 34243-40300 308 1309
493487-494864 45773-47149 13 262
495033-495148 47283-47401 5 7
496111-500325 48567-52845 154 914
500370-508806 52961-61406 351 1750
510438-516539 63097-69275 187 1150
517766-521500 70536-74265 99 763
523105-528679 76268-81855 207 1109
528794-550219 81925-103395 545 3211
550361-555905 103601-109238 133 950
Таблица 3. Участки контига 6, соответствующие хромосоме
Координаты генома Координаты контига Гэпы SNPs
220869-223720 146-2996 19 483
224057-228137 3385-7496 163 799
228944-232057 8396-11516 97 573
232358-236859 11665-16194 130 985
236918-247596 16292-26990 390 2272
248967-252161 28467-31669 94 625
253244-257546 32780-37082 192 978
260224-263784 39869-43440 111 717
266073-275551 45989-55468 363 1689
275566-283706 55527-63756 421 1579
283963-285070 64004-65113 46 422
285200-286535 65810-67144 27 295
288181-291560 68934-72299 98 671
294227-295755 75721-77247 14 279
295935-303252 77556-84909 186 1547
307878-312179 91741-96052 120 889
312679-315982 96698-100006 89 681
318826-323043 103039-107252 174 950
Таблица 4. Участки контига 10, соответствующие хромосоме
Координаты генома Координаты контига Гэпы SNPs
126623-127815 67840-69033 11 184
127825-140555 55035-67775 544 2723
144368-151796 43997-51396 243 1430
153752-161738 33933-42017 266 1557
161898-166752 28867-33727 108 894
166750-173180 22393-28836 159 1393
179654-180620 14869-15834 1 144
181712-185328 10021-13675 112 774
187938-192665 2708-7482 99 859
192777-193984 1427-2632 4 222
194042-195400 37-1400 13 1121

Как видно из dotplot'ов, у контигов 8 и 6 относительно хорошее покрытие соответствующего им участка хромосомы (75% и 74% соответственно), а значит в них содержится невысокое количество мутаций, позволяющее алгоритму megablast выровнять их на референсную последовательность. У контига 10 оно было хуже (65%). Те участки, в которых на графике нет точек при отсутствии смещения прямой, можно интерпретировать как сильно мутировавшие. Крупных же делеций замечено не было.