Практикум 15

0. Загрузка и создание исходных файлов

Для загрузки данного мне файла с чтениями была использована команда:

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240379/SRR4240379.fastq.gz

Для объединения файлов с адаптерами была использована команда:

cat /mnt/scratch/NGS/adapters/* > adapters.fasta

1. Подготовка чтений программой Trimmomatic

Для удаления адаптеров была использована команда:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379.fastq.gz SRR4240379_mod1.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7

Количество чтений после этой операции снизилось с 7400155 до 7269852. То есть остатками адаптеров оказалось 130303 (1.76%) последовательностей.

Удаление нуклеотидов низкого качества с правых концов и фильтрация по размеру (не меньше 32 нуклеотидов) были осуществлены следующей командой:

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379_mod1.fastq.gz SRR4240379_mod2.fastq.gz TRAILING:20 MINLEN:32

Количество чтений после этой операции снизилось с 7269852 до 6974267. То есть было удалено 295585 (4.07%) чтений. Размер исходного файла был 167M. После удаления адаптеров он стал 165М, а после фильтрации по качеству и размеру - 156М.

2. Запуск программы velveth

Для подготовки 31-меров на основе нашего файла была запущена программа velveth:

velveth Assem 31 -short -fastq.gz SRR4240379_mod2.fastq.gz

3. Запуск программы velvetg

Далее для сборки на основе полученных 31-меров была запущена программа velvetg:

velvetg Assem

После работы программы был получен набор контигов с N50=25646 и значениями длин и покрытий (покрытия в скобках) трех самых больших контигов:

Аномально большие покрытия были у 4-х контигов, их значения: 181, 177, 172 и 120. Остальные значения покрытий - двузначные числа. Наименьшие значения покрытий - значения между 2 и 3 у нескольких контигов.

Примечание: поиск наибольших длин проводился с помощью сортировки колонки lngth файла stats.txt, а наибольших/наименьших покрытий путем применения команды grep "^>" к файлу contigs.fa и просмотра полученного файла.

4. Анализ

Самый большой контиг длиной 49912 картируется на хромосому в четырех своих участках (выравнивания 4 и 5 соответствуют одному фрагменту гомологии), между которыми есть негомологичные промежутки:

Следующий контиг длиной 49292 картируется на хромосому в десяти своих участках, между которыми есть негомологичные промежутки разной длины:

Третий контиг длиной 33085 картируется на хромосому в трех своих участках (выравнивания 2 и 3 соответствуют одному фрагменту гомологии), между которыми есть негомологичные промежутки. Стоит отметить большой промежуток негомологии между 1 и 2 гомологичными участками контига: