Практикум 14: сборка de novo хлоропластных чтений

Образец и получение данных

Код доступа: SRR1724088 (проект секвенирования РНК из хлоропластов Arabidopsis thaliana). Чтения одиночные, длина 101 п.н., технология Illumina. Данные скачаны с ENA:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR172/008/SRR1724088/SRR1724088.fastq.gz

Размер архива: 733 МБ.


Подготовка чтений (Trimmomatic)

Для удаления адаптеров создан общий файл адаптеров:

cat /mnt/scratch/NGS/adapters/* > adapters.fasta

Этап 1 – удаление адаптеров (SE):

    java -jar /usr/share/java/trimmomatic.jar SE \
    SRR1724088.fastq.gz \
    step1_trimmed.fastq.gz \
    -trimlog trimlog_step1.txt \
    ILLUMINACLIP:adapters.fasta:2:7:7

Результат: Input Reads: 12 136 372, Surviving: 12 125 804 (99,91%), Dropped: 10 568 (0,09%).

Этап 2 – обрезка по качеству и фильтрация по длине:

    java -jar /usr/share/java/trimmomatic.jar SE \
    step1_trimmed.fastq.gz \
    final_trimmed.fastq.gz \
    -trimlog trimlog_step2.txt \
    TRAILING:20 MINLEN:32

Результат: Input Reads: 12 125 804, Surviving: 11 716 584 (96,63%), Dropped: 409 220 (3,37%).

Размеры файлов после каждого этапа:

  • SRR1724088.fastq.gz – 733 МБ
  • step1_trimmed.fastq.gz – 717 МБ
  • final_trimmed.fastq.gz – 690 МБ

Сборка контигов (Velvet, k=31)

Построение k-меров:

velveth assembly_dir 31 -fastq -short final_trimmed.fastq.gz &> velveth.log

Сборка графа:

velvetg assembly_dir &> velvetg.log

Статистика сборки:

  • N50 = 29 (половина всех собранных нуклеотидов находится в контигах длиной ≤29 п.н.)
  • Три самых длинных контига (по данным stats.txt и фактическим последовательностям):
    • Контиг 49377: длина 1618 п.н. (по .fa), покрытие 25,79
    • Контиг 43390: длина 1060 п.н., покрытие 14,32
    • Контиг 22365: длина 918 п.н., покрытие 11,20
  • Контиги с аномально высоким покрытием (в тысячи раз выше среднего 17,1):
    350     1       185     121     0.000000        1566165.000000  ...
    336     1       68      74      0.000000        1560283.000000  ...
    Это однонуклеотидные контиги, вероятно, артефакты сборки.
  • Контиги с аномально низким покрытием (Inf, т.е. близким к нулю) – также артефакты.

BLAST-анализ трёх самых длинных контигов

Для каждого контига выполнено выравнивание с референсными геномами A. thaliana (режим align two sequences или обычный BLAST с ограничением таксона).

Контиг NODE_49377 (1618 п.н., покрытие 25,8)

Выравнивание на хлоропластный геном NC_000932.1:

  • Координаты на референсе: 25799 – 27416 (прямая цепь)
  • Длина выравнивания: 1618 п.н. (100% контига)
  • Идентичность: 99,88% (1616 совпадений, 2 замены, гэпов нет)
  • E-value: 0.0
  • Участок соответствует гену psbA (D1 белок фотосистемы II) – типичный хлоропластный ген.
BLAST contig 1
Рис. 1. Карта локального сходства контига 49377 с хлоропластным геномом NC_000932.1.

Контиг NODE_43390 (1060 п.н., покрытие 14,3)

С хлоропластным геномом совпадений не найдено, но обнаружено высокое сходство с митохондриальным геномом NC_001284.2:

  • Координаты: 302149 – 303208 (обратная цепь)
  • Длина выравнивания: 1060 п.н. (100% контига)
  • Идентичность: 99,43% (1054 совпадения, 6 замен, гэпов нет)
  • E-value: 0.0
  • Участок соответствует гену nad5 (субъединица 5 NADH-дегидрогеназы митохондрий).
BLAST contig 2
Рис. 2. Карта локального сходства контига 43390 с митохондриальным геномом NC_001284.2.

Контиг NODE_22365 (918 п.н., покрытие 11,2)

Не совпал ни с хлоропластным, ни с митохондриальным геномом. При поиске по ядерным хромосомам (BLASTN против RefSeq, ограничение A. thaliana) выявилось множественное выравнивание на хромосому 1 (NC_003070.9):

  • Общее покрытие запроса: 97%
  • Четыре фрагмента с идентичностью 99–100%:
    • 556 п.н. (99% идентичность), координаты 24046759–24047314, минус-цепь
    • 182 п.н. (99%), координаты 24047784–24047965, минус-цепь
    • 87 п.н. (100%), координаты 24047620–24047706, минус-цепь
    • 84 п.н. (100%), координаты 24047381–24047464, минус-цепь
  • Такая картина характерна для химерного контига, собранного из повторов или близких последовательностей; вероятно, это фрагменты ядерной ДНК (например, транспозоны или гены рРНК).

На скриншоте ниже представлена страница результатов BLAST с деталями всех четырёх выравниваний.

BLAST contig 3
Рис. 3. Результаты BLAST контига 22365 против хромосомы 1 (NC_003070.9). Видны четыре фрагмента выравнивания.

Выводы

Сборка de novo чтений, полученных из хлоропластов A. thaliana, дала сильно фрагментированный результат (N50=29), что характерно для данных с невысоким покрытием и наличием повторов. Однако три самых длинных контига удалось идентифицировать:

  • Контиг 49377 – хлоропластный ген psbA (фотосистема II), что соответствует ожидаемому происхождению образца.
  • Контиг 43390 – митохондриальный ген nad5, указывает на примесь митохондриальной ДНК в препарате.
  • Контиг 22365 – множественные совпадения с ядерной хромосомой 1, вероятно, представляет собой химеру из повторяющихся элементов ядерного генома.

Обнаружение контигов разного происхождения типично для препаратов органелльной ДНК и подчёркивает важность биоинформатической фильтрации. Несмотря на фрагментированность сборки, BLAST-анализ позволил надёжно определить биологическую природу наиболее длинных фрагментов.


Placeholder

Практикум 7

Нуклеотидные банки данных

Тык

Placeholder

Практикум 9

EMBOSS, Entrez Direct, NCBI Datasets

Тык

Placeholder

Практикум 11

Введение в анализ NGS

Тык