Изучаемые одноконцевые чтения из проекта по секвенированию Buchnera aphidicola, полученные по технологии Illumina (AC: SRR4240356), скачиваются следущей командой.
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz
Далее проводится анализ исходныч ридов, в том числе качества. Визуализация доступна со ссылке.
fastqc SRR4240356.fastq.gz
Адаптеры были записаны с в файл, копия которого доступна по ссылке.
cat /mnt/scratch/NGS/adapters/*SE.fa > adapters.fasta
С использованием этого файла адаптеры были удалены из ридов программой trimmomatic.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356.fastq.gz SRR4240356_clipped.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 2> clipping.log
Далее с правых концов были удалены позиции с качеством меньше 20 и оставлены только чтения длиной от 32 нуклеотидов. По информации из логов было удалено 299579 чтений, что составляет 4.07% от всех.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240356_clipped.fastq.gz SRR4240356_trimmed.fastq.gz TRAILING:20 MINLEN:32 2> trimming.log
Визуализация анализа триммированных чтений доступна по ссылке.
fastqc SRR4240356_out.fq.gz
Далее были подготовлены k-меры длиной 31, которые были помещены в директория velveth.
velveth velveth 31 -fastq.gz SRR4240356_trimmed.fq.gz -short
Сборка с помощью полученных k-меров была осуществлена с помощью velvetg. Согласно логам N50 составил 6554. Информация о каждом из контигов доступна по ссылке на копию файла stats.txt. Последовательности контигов были получены из файла contigs.fa, в котором также содержалась информация о них.
velvetg velveth 2> velvetg.log
Все контиги с аномально малым покрытием (порядка единицы) составляли единицы-cотни нуклеотидов. Интерес же представлял контиг 64 длиной всего в нуклеотид с необъяснимо большим покрытием 266957 (в contigs.fa отсутствует).
ID | Длина | Покрытие |
---|---|---|
8 | 111962 | 38.668870 |
6 | 107488 | 34.195585 |
10 | 80939 | 37.546325 |
Самые длинные контиги из таблицы выше далее были выровнены с помощью megablast на хромосому изучаемой бактерии (АС: CP009253). В дополнительных параметрах было выставлено E-value 0.01. Для контига 8, контига 6 и контига 10 megablast выдал по одному результату, в каждом из которых было несколько выравниваний. Из dotplot'ов видно, что котиг 10 был записан в обратном порядке. Инверсий и дупликаций нигде не наблюдалось. |
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Как видно из dotplot'ов, у контигов 8 и 6 относительно хорошее покрытие соответствующего им участка хромосомы (75% и 74% соответственно), а значит в них содержится невысокое количество мутаций, позволяющее алгоритму megablast выровнять их на референсную последовательность. У контига 10 оно было хуже (65%). Те участки, в которых на графике нет точек при отсутствии смещения прямой, можно интерпретировать как сильно мутировавшие. Крупных же делеций замечено не было.