Сборка генома de novo

В данном практикуме необходимо de novo собрать геном бактерии Buchnera aphidicola, код доступа - SRR4240359.

Подготовка чтений

1. Скачивание архива с одиночными чтениями:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240359/SRR4240359.fastq.gz
2. Удаление остатков адаптеров с помощью пограммы trimmomatic (для удобства все адаптеры объединены в файл adapters.fasta):
java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 15 SRR4240359.fastq.gz 
SRR4240359_trim_adapt.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7
Остатками адаптеров оказались 55872 (0.41%) чтений. Размер файла до очистки - 445 Mb, после - 443 Mb.

3. Удаление концов чтений

Были удалены нуклеотиды с качеством чтений ниже 20, длина оставшихся чтений - не меньше 32 нуклеотидов.

java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 15 SRR4240359_trim_adapt.fastq.gz 
SRR4240359_trim_end.fastq.gz TRAILING:20 MINLEN:32
Было удалено 1317986 (9.76%) чтений. Размер файла после удаления чтений - 385 Mb.

Сборка на основе k-меров

1. Подготовка k-меров длины 31 с помощью velveth:

velveth velvet/ 31 -fastq.gz -short SRR4240359_trim_end.fastq.gz

2. Сборка генома программой velvetg:

velvetg velvet/
N50 данной сборки равен 70607. Информация о длине и покрытии контигов была проанализирована с помощью Excel. Результаты представлены в таблице 1.

Таблица 1. Параметры трех самых длинных контигов
ID контига Длина (bp) Покрытие
11 125674 44.550949
1 108447 42.009184
4 71403 39.408694

Также в сборке присутствуют контиги с маленьким покрытием, например контиг 231 с покрытием 2.19, и контиг 285 с покрытием 2.44.

Анализ контигов

Контиг 1
Таблица 2. Выравнивания контига 1
node1
.

Контиг картировался на хромосому 15 фрагментами. В целом выравнивания неплохие, от 75 процентов идентичности, гэпов от 0-4%, но имеется выравнивание с 7% гэпов. Также в контиге имеются участки, которые не выровнялись на хромосому (1 - 3756, 4652 - 7333, 14500 - 32468, 79108 - 87826). Характеристики выравниваний приведены в таблице 2.

node1
Dot-plot для контига 1

Контиг 11
Таблица 3. Выравнивания контига 11
node11
.

Контиг картировался на хромосому 25 фрагментами. Выравнивания от 74 процентов идентичности, гэпов 0-4%. Можно заметить, что контиг содержит точку начала хромосомы, а также картируется в обратном направлении. В контиге имеются участки, которые не выровнялись на хромосому (12259-16970, 30582 - 35876, 113849 - 120355). Характеристики выравниваний приведены в таблице 3.

node11
Dot-plot для контига 11

Контиг 14
Таблица 4. Выравнивания контига 14
node14
.

Контиг картировался на хромосому 14 фрагментами, в обратном направлении. Выравнивания от 73 процентов идентичности, гэпов 1-4%. В целом этот контиг выровнялся немного лучше предыдущих, участков, которые не выровнялись на хромосому меньше (6967 - 9517, 13088 - 15866, 57887 - 61463). Характеристики выравниваний представлены в таблице 4.

node14
Dot-plot для контига 14