Практикум 14

Резюме: В ходе работы над этим практикумом была предпринята попытка сборки de novo генома Buchnera aphidicola


Мне достались чтения SRR4240358. Они были скачаны и разахивированы:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz
$ gunzip SRR4240358.fastq.gz

1. Подготовка чтений

Для начала нужно было подготовить чтения с помощью программы Trimmomatic. Удаление возможных остатков адаптеров (adapters.fasta - объединенный с помощью cat файл c адаптерами):

TrimmomaticSE SRR4240358.fastq SRR4240358.ad.fastq ILLUMINACLIP:adapters.fasta:2:7:7 2>logs.txt

В файле с логами была такая строчка: Input Reads: 10543839 Surviving: 10368884 (98.34%) Dropped: 174955 (1.66%). То есть остатками адаптеров оказалось 1.66% чтений. Далее с правых концов чтений были удалены нуклеотиды с качеством ниже 20, оставлялись только такие чтения, длина которых не меньше 32 нуклеотидов:

TrimmomaticSE SRR4240358.ad.fastq SRR4240358.trim.fastq TRAILING:20 MINLEN:32 2>logs.txt

Удалено было 2352447 (22.69%) чтений, осталось 8016437. Размер файла до триммирования - 1.1Gb, после - 826 Mb.

2. Сборка

Сначала с помощью программы velveth были подготовлены k-меры длиной 31:

velveth . 31 -short -fastq SRR4240358.trim.fastq

Далее непосредственно сборка на основе этих k-меров с помощью прогараммы velvetg:

velvetg .

Парметр N50 - 8600. Получившиеся контиги хранятся в файле contigs.fa и их описания имеют вид: >NODE_1_length_11615_cov_28.861988. Поэтому для того, чтобы найти самые длинные контиги был использован следующий конвейер:

grep '^>' contigs.fa | sort -k4 -t '_' -n -r | less

Саммые длинные контиги:

NODE_56_length_19821_cov_29.475859 (то есть контиг 56, длина 19821 в перекрывающихся 31-мерах, то есть длина в нуклеотидах = 19851 bp, покрытие 29.475859)
NODE_34_length_18714_cov_29.922678 (контиг 34, длина 18744bp, покрытие 29.922678)
NODE_40_length_16436_cov_30.793623 (контиг 40, длина 16466bp, покрытие 30.793623)

Далее нужно было посмотреть, есть ли контиги с аномальным покрытием, это было сделано аналогичной командой, то сортировка по другому столбцу (с -r и без -r). Контиги с аномально большим покрытием:

NODE_18_length_60_cov_412.100006
NODE_97_length_53_cov_405.245270
Контиги с аномально малым покрытием:
NODE_333_length_31_cov_1.709677
NODE_143_length_31_cov_3.064516
Можно заметить, что это очень короткие контиги, что может объяснять такое покрытие (при малом количестве испытаний (в данном случае, длине) вероятнее получить экстремальные средние значания.

3. Анализ

Три самых длинных контига были сравнены с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253) программой megablast (Рис 1,2,3).

Контиг 34
Рис.1. Dotplot с контигом 34.

34 контиг соотвествует участку хромосомы с координатами 8599-26764. Число участков контига, выравненных с хромомой: 6. Процент идентичных нуклеотидов в выравнивании: 75-85%; Гэпы: 1-3%. Контиг некомплементарен (то есть соотвествует тому же типу цепи, что и хромосома).

Контиг 40
Рис.2. Dotplot с контигом 40.

40 контиг соотвествует участку хромосомы с координатами 462496-474242. Число участков контига, выравненных с хромомой: 2. Процент идентичных нуклеотидов в выравниваниях: 77%; Гэпы: 2-3%. Контиг комплементарен хромосомe.

Контиг 56
Рис.3. Dotplot с контигом 56.

56 контиг соотвествует участку хромосомы с координатами 500370-514772. Число участков контига, выравненных с хромомой: 3. Процент идентичных нуклеотидов в выравниваниях: 75-81%; Гэпы: 1-4%. Контиг некомплементарен (то есть соотвествует тому же типу цепи, что и хромосома).