Практикум 9

EMBOSS и локальный BLAST

Задание 1


seqret @seqlist.txt joined.fasta
seqretsplit seq2.fasta -auto 
seqret @list3.txt 3cds.fasta
transeq seq4.fasta -frame 1 -table 0 seq4_translated.fasta
getorf seq5.fasta -minsize 30 seq5_orfs.fasta
seqret ali6.fasta msf::ali6.msf
infoalign -refseq 2 -idcount -name -only ali7.fasta ali7_idcount
featcopy Pseudomonas_phage_F116.gb pseudomonas_phage_f116.gff
extractfeat -type CDS Pseudomonas_phage_F116.gb ppf116_cds.fasta
shuffleseq seq10.fasta seq10_shuffled.fasta

Задание 2

Проверить, сколько находок с E-value < 0.1 в среднем находит blastn для случайной последовательности данной длины в данном геноме бактерии.

Ссылка на скрипт 1

Скрипт 1 принимает на вход длину случайной последовательности, которую мы будем искать, и геном, в котором будем её искать. Далее скрипт создаёт 100 случайных последовательностей заданной длины, ищет их в заданном геноме при помощи blastn и выдаёт количество находок с pvalue < 0.1. Понятно, что единичный запуск скрипта даёт довольно мало информации. Немного усовершенствуем скрипт и соберём статистику (в качестве рассматриваемого взят геном Bacillus subtilis, NC_000964.3).

Ссылка на скрипт 2

Ссылка на таблиицу с результатами

Усовершенствованный скрипт принимает на вход те же параметры, однако проделывает операции первого скрипта 100 раз и записывает результат в файл с указанием длины искомых случайных последовательностей. Вспомним, что e-value вычисляется по следующей формуле (K и лямбда - константы, зависящие от используемой матрицы и штрафа за гэпы, m - длина искомой последовательности, n - размер банка, в нашем случае тоже константа, S - вес):

Или (вес в битах B):

При увеличении длины запроса e-value должно увеличиваться. Кажется, что отсюда следует, что при увеличении длины искомой последовательности должно появляться меньше находок с маленьким e-value. Однако (см. таблицу) этого не происходит. По количеству находок (и среднему, и медиане, и максимальному) мы наблюдаем волнообразное изменение с минимумом при length = 50 и падением при length = 400-500. Возможно, данный факт объясняется тем, что с увеличением длины запроса увеличивается и шанс найти случайно похожий кусок в базе. И пусть в среднем e-value таких находок падает (может быть, доля тех, что имеют e-value < 0.1 и становится меньше), но за счёт увеличения их общего числа количественного падения мы не наблюдаем.

Номер задания	Задание	Исходные данные	Команды с параметрами	Результаты
1	Несколько файлов в формате fasta собрать в единый файл	Исходный файл 1 Исходный файл 2 Исходный файл 3 Исходный файл 4	seqret @seqlist.txt joined.fasta	Результат
2	Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы	Исходный файл	seqretsplit seq2.fasta -auto	Результат 1 Результат 2 Результат 3
3	Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле	Исходный файл	seqret @list3.txt 3cds.fasta	Результат
4	Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл	Исходный файл	transeq seq4.fasta -frame 1 -table 0 seq4_translated.fasta	Результат
5	Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности	Исходный файл	getorf seq5.fasta -minsize 30 seq5_orfs.fasta	Результат
6	Перевести выравнивание из формата fasta в формат msf	Исходный файл	seqret ali6.fasta msf::ali6.msf	Результат
7	Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа)	Исходный файл	infoalign -refseq 2 -idcount -name -only ali7.fasta ali7_idcount	Результат
8	Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff	Исходный файл	featcopy Pseudomonas_phage_F116.gb pseudomonas_phage_f116.gff	Результат
9	Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями	Исходный файл	extractfeat -type CDS Pseudomonas_phage_F116.gb ppf116_cds.fasta	Результат
10	Перемешать буквы в данной нуклеотидной последовательности	Исходный файл	shuffleseq seq10.fasta seq10_shuffled.fasta	Результат