Практикум 14
Резюме: В ходе работы над этим практикумом была предпринята попытка сборки de novo генома Buchnera aphidicola
Мне достались чтения SRR4240358. Они были скачаны и разахивированы:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz
$ gunzip SRR4240358.fastq.gz
1. Подготовка чтений
Для начала нужно было подготовить чтения с помощью программы Trimmomatic. Удаление возможных остатков адаптеров (adapters.fasta - объединенный с помощью cat файл c адаптерами):
TrimmomaticSE SRR4240358.fastq SRR4240358.ad.fastq ILLUMINACLIP:adapters.fasta:2:7:7 2>logs.txt
В файле с логами была такая строчка: Input Reads: 10543839 Surviving: 10368884 (98.34%) Dropped: 174955 (1.66%)
. То есть остатками адаптеров оказалось 1.66% чтений. Далее с правых концов чтений были удалены нуклеотиды с качеством ниже 20, оставлялись только такие чтения, длина которых не меньше 32 нуклеотидов:
TrimmomaticSE SRR4240358.ad.fastq SRR4240358.trim.fastq TRAILING:20 MINLEN:32 2>logs.txt
Удалено было 2352447 (22.69%) чтений, осталось 8016437. Размер файла до триммирования - 1.1Gb, после - 826 Mb.
2. Сборка
Сначала с помощью программы velveth
были подготовлены k-меры длиной 31:
velveth . 31 -short -fastq SRR4240358.trim.fastq
Далее непосредственно сборка на основе этих k-меров с помощью прогараммы velvetg
:
velvetg .
Парметр N50 - 8600. Получившиеся контиги хранятся в файле contigs.fa и их описания имеют вид: >NODE_1_length_11615_cov_28.861988
. Поэтому для того, чтобы найти самые длинные контиги был использован следующий конвейер:
grep '^>' contigs.fa | sort -k4 -t '_' -n -r | less
Саммые длинные контиги:
NODE_56_length_19821_cov_29.475859 (то есть контиг 56, длина 19821 в перекрывающихся 31-мерах, то есть длина в нуклеотидах = 19851 bp, покрытие 29.475859)
NODE_34_length_18714_cov_29.922678 (контиг 34, длина 18744bp, покрытие 29.922678)
NODE_40_length_16436_cov_30.793623 (контиг 40, длина 16466bp, покрытие 30.793623)
Далее нужно было посмотреть, есть ли контиги с аномальным покрытием, это было сделано аналогичной командой, то сортировка по другому столбцу (с -r и без -r). Контиги с аномально большим покрытием:
NODE_18_length_60_cov_412.100006Контиги с аномально малым покрытием:
NODE_97_length_53_cov_405.245270
NODE_333_length_31_cov_1.709677Можно заметить, что это очень короткие контиги, что может объяснять такое покрытие (при малом количестве испытаний (в данном случае, длине) вероятнее получить экстремальные средние значания.
NODE_143_length_31_cov_3.064516
3. Анализ
Три самых длинных контига были сравнены с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253) программой megablast (Рис 1,2,3).
Контиг 34
34 контиг соотвествует участку хромосомы с координатами 8599-26764. Число участков контига, выравненных с хромомой: 6. Процент идентичных нуклеотидов в выравнивании: 75-85%; Гэпы: 1-3%. Контиг некомплементарен (то есть соотвествует тому же типу цепи, что и хромосома).
Контиг 40
40 контиг соотвествует участку хромосомы с координатами 462496-474242. Число участков контига, выравненных с хромомой: 2. Процент идентичных нуклеотидов в выравниваниях: 77%; Гэпы: 2-3%. Контиг комплементарен хромосомe.
Контиг 56
56 контиг соотвествует участку хромосомы с координатами 500370-514772. Число участков контига, выравненных с хромомой: 3. Процент идентичных нуклеотидов в выравниваниях: 75-81%; Гэпы: 1-4%. Контиг некомплементарен (то есть соотвествует тому же типу цепи, что и хромосома).