Практикум 15.

Сборка генома de novo.

Для сборки мне достался код доступа SRR4240361, организм - Buchnera aphidicola.

Подготовка чтений

1) удаление остатков адаптеров:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240361.fastq.gz  SRR4240361_adapout.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7

В процессе удаления остатков адаптеров осталось 7238089 из 7272621 чтений (99.53%).

2) Триммирование оставшихся чтений по заданным параметрам:

java -jar /usr/share/java/trimmomatic.jar SE -phred33  SRR4240361_adapout.fastq.gz SRR4240361.final_.fastq.gz TRAILING:20 MINLEN:32

Второй порог прошли 6834335 чтений из оставшихся на прошлом этапе (94.42%). По ходу фильтрации размер файла изменялся так: 193M -> 192M -> 178M.

Собственно сборка:

1) velveth ./velveth_out 31 -fastq.gz -short SRR4240361.final_.fastq.gz >velveth
2) velvetg ./velveth_out >velvetg

Анализ результата

В полученной сборке оказалось 477 контигов, N50 для неё составил 25683. Ниже в таблице представлена информация о трёх самых крупных контигах в полученной сборке:

Номер контига 6 2 34
длина контига 49238 45555 43866
покрытие 26.7 26.5 23.5

На рисунках 1-3 представлены выравнивания трёх длиннейших контигов на хромосому Buchnera aphidicola:

megablast
Рисунок 1. Результат выравнивания контига номер 6 (по x) и хромосомы Buchnera aphidicola. Картировался на хромомсому пятью участками, лежащими между 127825 и 173180 координатами хромосомы. Параметр Identity ≈ 77%, гэпов - не более 4%.
megablast
Рисунок 2. Результат выравнивания контига номер 2 (по x) и хромосомы Buchnera aphidicola. Картировался на хромомсому девятью участками, лежащими между 440755 и 485679 координатами хромосомы в обратном направлении. Параметр Identity ≈ 79%, гэпов - не более 4%.
megablast
Рисунок 3. Результат выравнивания контига номер 34 (по x) и хромосомы Buchnera aphidicola. Картировался на хромомсому семью участками, лежащими между 253223 и 291560 координатами хромосомы. Параметр Identity ≈ 76%, гэпов - не более 5%.