Практикум 14: сборка de novo хлоропластных чтений
Образец и получение данных
Код доступа: SRR1724088 (проект секвенирования РНК из хлоропластов Arabidopsis thaliana). Чтения одиночные, длина 101 п.н., технология Illumina. Данные скачаны с ENA:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR172/008/SRR1724088/SRR1724088.fastq.gz
Размер архива: 733 МБ.
Подготовка чтений (Trimmomatic)
Для удаления адаптеров создан общий файл адаптеров:
cat /mnt/scratch/NGS/adapters/* > adapters.fasta
Этап 1 – удаление адаптеров (SE):
java -jar /usr/share/java/trimmomatic.jar SE \ - SRR1724088.fastq.gz \
- step1_trimmed.fastq.gz \
- -trimlog trimlog_step1.txt \
- ILLUMINACLIP:adapters.fasta:2:7:7
Результат: Input Reads: 12 136 372, Surviving: 12 125 804 (99,91%), Dropped: 10 568 (0,09%).
Этап 2 – обрезка по качеству и фильтрация по длине:
java -jar /usr/share/java/trimmomatic.jar SE \ - step1_trimmed.fastq.gz \
- final_trimmed.fastq.gz \
- -trimlog trimlog_step2.txt \
- TRAILING:20 MINLEN:32
Результат: Input Reads: 12 125 804, Surviving: 11 716 584 (96,63%), Dropped: 409 220 (3,37%).
Размеры файлов после каждого этапа:
SRR1724088.fastq.gz– 733 МБstep1_trimmed.fastq.gz– 717 МБfinal_trimmed.fastq.gz– 690 МБ
Сборка контигов (Velvet, k=31)
Построение k-меров:
velveth assembly_dir 31 -fastq -short final_trimmed.fastq.gz &> velveth.log
Сборка графа:
velvetg assembly_dir &> velvetg.log
Статистика сборки:
- N50 = 29 (половина всех собранных нуклеотидов находится в контигах длиной ≤29 п.н.)
- Три самых длинных контига (по данным
stats.txtи фактическим последовательностям):- Контиг 49377: длина 1618 п.н. (по .fa), покрытие 25,79
- Контиг 43390: длина 1060 п.н., покрытие 14,32
- Контиг 22365: длина 918 п.н., покрытие 11,20
- Контиги с аномально высоким покрытием (в тысячи раз выше среднего 17,1):
350 1 185 121 0.000000 1566165.000000 ...
336 1 68 74 0.000000 1560283.000000 ...
Это однонуклеотидные контиги, вероятно, артефакты сборки. - Контиги с аномально низким покрытием (Inf, т.е. близким к нулю) – также артефакты.
BLAST-анализ трёх самых длинных контигов
Для каждого контига выполнено выравнивание с референсными геномами A. thaliana (режим align two sequences или обычный BLAST с ограничением таксона).
Контиг NODE_49377 (1618 п.н., покрытие 25,8)
Выравнивание на хлоропластный геном NC_000932.1:
- Координаты на референсе: 25799 – 27416 (прямая цепь)
- Длина выравнивания: 1618 п.н. (100% контига)
- Идентичность: 99,88% (1616 совпадений, 2 замены, гэпов нет)
- E-value: 0.0
- Участок соответствует гену psbA (D1 белок фотосистемы II) – типичный хлоропластный ген.
Контиг NODE_43390 (1060 п.н., покрытие 14,3)
С хлоропластным геномом совпадений не найдено, но обнаружено высокое сходство с митохондриальным геномом NC_001284.2:
- Координаты: 302149 – 303208 (обратная цепь)
- Длина выравнивания: 1060 п.н. (100% контига)
- Идентичность: 99,43% (1054 совпадения, 6 замен, гэпов нет)
- E-value: 0.0
- Участок соответствует гену nad5 (субъединица 5 NADH-дегидрогеназы митохондрий).
Контиг NODE_22365 (918 п.н., покрытие 11,2)
Не совпал ни с хлоропластным, ни с митохондриальным геномом. При поиске по ядерным хромосомам (BLASTN против RefSeq, ограничение A. thaliana) выявилось множественное выравнивание на хромосому 1 (NC_003070.9):
- Общее покрытие запроса: 97%
- Четыре фрагмента с идентичностью 99–100%:
- 556 п.н. (99% идентичность), координаты 24046759–24047314, минус-цепь
- 182 п.н. (99%), координаты 24047784–24047965, минус-цепь
- 87 п.н. (100%), координаты 24047620–24047706, минус-цепь
- 84 п.н. (100%), координаты 24047381–24047464, минус-цепь
- Такая картина характерна для химерного контига, собранного из повторов или близких последовательностей; вероятно, это фрагменты ядерной ДНК (например, транспозоны или гены рРНК).
На скриншоте ниже представлена страница результатов BLAST с деталями всех четырёх выравниваний.
Выводы
Сборка de novo чтений, полученных из хлоропластов A. thaliana, дала сильно фрагментированный результат (N50=29), что характерно для данных с невысоким покрытием и наличием повторов. Однако три самых длинных контига удалось идентифицировать:
- Контиг 49377 – хлоропластный ген psbA (фотосистема II), что соответствует ожидаемому происхождению образца.
- Контиг 43390 – митохондриальный ген nad5, указывает на примесь митохондриальной ДНК в препарате.
- Контиг 22365 – множественные совпадения с ядерной хромосомой 1, вероятно, представляет собой химеру из повторяющихся элементов ядерного генома.
Обнаружение контигов разного происхождения типично для препаратов органелльной ДНК и подчёркивает важность биоинформатической фильтрации. Несмотря на фрагментированность сборки, BLAST-анализ позволил надёжно определить биологическую природу наиболее длинных фрагментов.