Практикум №15

Сборка de-novo

В данном практикуме нам предложмлм попробовать собрать геном. В качестве примера была выбрана бактерия Buchnera aphidicola. Для начала работы были скачаны чтения при помощи команды:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240361/SRR4240361.fastq.gz

Теперь необходимо проверить качество чтений (ссылка). Как видно, качество чтений не очень хорошее, так что необходимо будет произвести триммирование. Для начала необходимо было собрать все адаптеры в 1 файл (файл) и провести триммирование (лог):

cat /mnt/scratch/NGS/adapters/* > adapters.fasta

java -jar /usr/share/java/trimmomatic.jar SE -threads 20 SRR4240361.fastq.gz trimadapt_SRR4240361.fastq.gz

ILLUMINACLIP:adapters.fasta:2:7:7 2> trimadapt.err

Затем была проведена проверка качества (ссылка). Из файла видно, что было удалено 34532 (0.47%) адаптеров (качество улучшилось, но не очень сильно).

Теперь надо удалить с правых концов чтений нуклеотиды с качеством ниже 20 и оставить только такие чтения, длина которых не меньше 32 нуклеотидов:

java -jar /usr/share/java/trimmomatic.jar SE -threads 20 trimadapt_SRR4240361.fastq.gz

trim_SRR4240361.fastq.gz TRAILING:20 MINLEN:32 2> trim.err

Из полученного (файла) видно, что было удалено 403754 (5.58%) последовательностей. Затем, опять же, была проведена проверка качества (ссылка). Качество улучшилось (хотя всё ещё странное).

Теперь, приступаем к самой сборке:

velveth velvet/ 31 -fastq.gz -short trim_SRR4240361.fastq.gz

Здесь velvet/ — директория для сборки, 31 — размер k-мера для построения графа, -short — указание на короткие непарные прочтения.

Теперь надо проанализировать качество сборки. Из (log-файла) узнали, что полученный граф имеет 477 узлов и N50=25683. Теперь найдём 3 самых длинных контига (файл) и запишем их покрытие.

Длина Покрытие
6 49238 26.660851
2 45555 26.450466
34 43866 23.514977
352 5 93.200000
372 1 93.000000

Также наблюдается 2 контига с аномально большим покрытием, но, учитывая их мерность, это, скорее всего, только шум

Теперь посмотрим, как контиги лягут на хромосому. При помощи "seqret" было создано 3 fasta файла, которые были загружены в megablast.

Координаты участка на хромосоме Число однонуклеотидных различий Число гэпов Ссылка на файл
6 127825-140555
153752161738
144368-151796
2711
1549
1434
50
25809
16429
(файл)
2 474667-467412
467421-462496
480660-474844
14
991
1295
168
135
196
(файл)
34 266073-275551
275566-283706
260224-263784
1688
1596
728
274
323
83
(файл)

Рисунок 1. Dot plot для 6, 2 и 34 контигов соответственно

Все контиги легли достаточно хорошо. Прерывистость объясняется наличием вариабельных участков.