Практикум 15

Я работал в директории /mnt/scratch/NGS/art-salimgareev/pr15. Я скачал чтения с SRA ID SRR4240360 при помощи wget:

Далее я слил все последовательности адаптеров в один файл adapters.fa для удобства работы: Я очистил чтения от возможных остатков адаптеров при помощи trimmomatic: Размер файла с ридами при этом уменьшился с 194 до 193 Мб. Было удалено ___________________________

Далее я удалил с правых концов чтений нуклеотиды с качеством ниже 20, оставил только такие чтения, длина которых не меньше 32 нуклеотидов:

Было удалено ________ чтений, объем файла после работы программы сократился с 193 до 184 Мб.

Я запустил программу velveth, результат работы которой записывается в папке velvet. Программа подготовила для сборки контигов k-меры длины 31:

Далее с помощью программы velvetg я получил последовательности контигов и информацию о них. Последовательности контигов хранятся в fasta формате в файле velvet/contigs.fa, информация о длинах и покрытиях контигов в файле velvet/stats.txt. stats.txt можно скачать и открыть в Excel.

Получилось 603 контига с N50 равным 43070, максимальной длиной контига 113474 нуклеотида.

Информация о трех самых длинных контигах приведена в таблице:

ID контига Длина контига Покрытие
1 113474 33.525460
5 83603 33.646065
4 64155 35.847323
Для выделения последовательности одного контига в отдельный fasta файл использовалась команда seqret: Среди контигов встретилось 13 элементов с покрытием 1, все они длиной 1 или 2. Самое большое покрытие имеют контиг длины 40 с покрытием 99,6 и длины 11 с покрытием 98.

Работа с BLAST

Я сопоставил три самых длинных контига с референсом - хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).

Контиг 1
contig 1
Рис. 1. Карта локального сходства контига 1 с хромосомой бактерии Buchnera aphidicola.

Первый контиг покрывает участок генома с 449411 нуклеотида до 555905 нуклеотида. Megablast построил 15 локальных выравниваний контига с хромосомой. Процент идентичности в выравниваниях в среднем 80%. Гэпов 3%. Выравнивание контига в целом ровное, крупных вставок или делеций нет. Промежутки между выравниваниями можно объяснить однобуквенными полиморфизмами, которые помешали алгоритму продолжить выравнивание на этот участок.

Контиг 4
contig 4
Рис. 2. Карта локального сходства контига 4 с хромосомой бактерии Buchnera aphidicola.

Четвертый контиг покрывает участок генома с 599832 нуклеотида до 32745 нуклеотида. Дело в том что этот контиг покрывает точку начала последовательности хромосомы в референсе. Megablast построил 12 локальных выравниваний контига с хромосомой. Процент идентичности в выравниваниях в среднем 78%. Гэпов 2%. Выравнивание контига в целом ровное, крупных вставок или делеций нет. Промежутки между выравниваниями как и в случае с первыс контигом можно объяснить однобуквенными полиморфизмами, которые помешали алгоритму продолжить выравнивание на этот участок.

Контиг 5
contig 5
Рис. 3. Карта локального сходства контига 5 с хромосомой бактерии Buchnera aphidicola.

Пятый контиг покрывает участок генома с 98408 нуклеотида до 173180 нуклеотида. Megablast построил 8 локальных выравниваний контига с хромосомой. Процент идентичности в выравниваниях в среднем 77%. Гэпов 3%. Выравнивание контига в целом ровное, крупных вставок или делеций нет. Промежутки между выравниваниями как и в случае с предыдущими контигами можно объяснить однобуквенными полиморфизмами, которые помешали алгоритму продолжить выравнивание на этот участок.