Практикум 15

1. Подготовка чтений программой trimmomatic

Архив с чтениями был получен с помощью следующей команды:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240379/SRR4240379.fastq.gz

Далее был создан файл с адаптерами:

cat /mnt/scratch/NGS/adapters/* > adapters.fasta

Программа для удаления адаптеров:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379.fastq.gz SRR4240379_mod1.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7

Было удалено 130303 (или 1.76%) последовательностей

Удаление чтений с качеством ниже 20 и длиной меньше 32:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379_mod1.fastq.gz SRR4240379_mod2.fastq.gz TRAILING:20 MINLEN:32

Было удалено 295585 (или 4.07%) чтений. Изначальный размер файла составил 167 М, после очистки - 156 М

2. Запуск velveth

Были подготовлены k-меры с k = 31:

velveth Assem 31 -short -fastq.gz SRR4240379_mod2.fastq.gz

3. Запуск velvetg

Далее проводилась сборка генома:

velvetg Assem

Далее были изучены основные параметры сборки. N50 составил 25646.

Таблица stats.txt была отсортирована при помощи программы sort -r -n -k 2 stats.txt | less. Таким образом, нашлись самые длинные контиги:

ID 6, длина 49912, покрытие 35.907237;

ID 9, длина 49262, покрытие 34.772;

ID 5, длина 33085, покрытие 36.259030

С помощью программы sort -r -n -k 6 stats.txt | less таблица была отсортирована по убыванию покрытия. В верху таблицы оказалось много фрагментов длины 1 с большим покрытием (например, ID 133 с покрытием 474299). Более содержательными находками оказались ID 60 - 181, ID 39 - 177, ID 30 -172

4. Анализ

Три самых больших контига были картированы на хромосому CP009253

ID 6

фото

Выравнивание разбилось на 4 участка с негомологичными промежутками между ними. Четвёртый участок выровнялся дважды:

1. 127825-140555 (75% идентичных нуклеотидов, 4% гэпов)

2. 144368-151796 (78% идентичных нуклеотидов, 3% гэпов)

3. 153752-161738 (78% идентичных нуклеотидов, 3% гэпов)

4. 161898-166752 (80% идентичных нуклеотидов, 2% гэпов)

5. 166750-173180 (76% идентичных нуклеотидов, 2% гэпов)

ID 9

фото

Выравнивание разбилось на 9 участков:

1. 480874-481545 (82% идентичных нуклеотидов, 2% гэпов)

2. 481997-488106 (74% идентичных нуклеотидов, 4% гэпов)

3. 493487-494864 (80% идентичных нуклеотидов, 0% гэпов)

4. 495033-495148 (90% идентичных нуклеотидов, 4% гэпов)

5. 496111-500325 (75% идентичных нуклеотидов, 3% гэпов)

6. 510438-516539 (79% идентичных нуклеотидов, 2% гэпов)

7. 517766-521500 (77% идентичных нуклеотидов, 2% гэпов)

8. 523105-528679 (77% идентичных нуклеотидов, 3% гэпов)

9. 528794-529211 (84% идентичных нуклеотидов, 6% гэпов)

ID 5

фото

Выравнивание разбилось на 3 участка. третий участок выровнялся дважды:

1. 451729-454069 (77% идентичных нуклеотидов, 2% гэпов)

2. 462496-467421 (77% идентичных нуклеотидов, 3% гэпов)

3. 467412-474667 (77% идентичных нуклеотидов, 2% гэпов)

4. 474844-480660 (74% идентичных нуклеотидов, 4% гэпов)