EMBOSS и локальный BLAST

Задание 1

Номер задания Задание Исходные данные Команды с параметрами Результаты
1 Несколько файлов в формате fasta собрать в единый файл Исходный файл 1 Исходный файл 2 Исходный файл 3 Исходный файл 4  
seqret @seqlist.txt joined.fasta
 
Результат
2 Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы  Исходный файл    
seqretsplit seq2.fasta -auto 
Результат 1 Результат 2 Результат 3
3 Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле   Исходный файл  
seqret @list3.txt 3cds.fasta
 
Результат
4 Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл   Исходный файл  
transeq seq4.fasta -frame 1 -table 0 seq4_translated.fasta
 
Результат
5 Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности  Исходный файл  
getorf seq5.fasta -minsize 30 seq5_orfs.fasta
 
Результат
6 Перевести выравнивание из формата fasta в формат msf  Исходный файл  
seqret ali6.fasta msf::ali6.msf
 
Результат
7 Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа)   Исходный файл  
infoalign -refseq 2 -idcount -name -only ali7.fasta ali7_idcount
 
Результат
8 Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff  Исходный файл
featcopy Pseudomonas_phage_F116.gb pseudomonas_phage_f116.gff
 
Результат
9 Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями  Исходный файл  
extractfeat -type CDS Pseudomonas_phage_F116.gb ppf116_cds.fasta
 
Результат
10 Перемешать буквы в данной нуклеотидной последовательности  Исходный файл  
shuffleseq seq10.fasta seq10_shuffled.fasta
 
Результат

Задание 2

Проверить, сколько находок с E-value < 0.1 в среднем находит blastn для случайной последовательности данной длины в данном геноме бактерии.

Ссылка на скрипт 1

Скрипт 1 принимает на вход длину случайной последовательности, которую мы будем искать, и геном, в котором будем её искать. Далее скрипт создаёт 100 случайных последовательностей заданной длины, ищет их в заданном геноме при помощи blastn и выдаёт количество находок с pvalue < 0.1. Понятно, что единичный запуск скрипта даёт довольно мало информации. Немного усовершенствуем скрипт и соберём статистику (в качестве рассматриваемого взят геном Bacillus subtilis, NC_000964.3).

Ссылка на скрипт 2

Ссылка на таблиицу с результатами

Усовершенствованный скрипт принимает на вход те же параметры, однако проделывает операции первого скрипта 100 раз и записывает результат в файл с указанием длины искомых случайных последовательностей. Вспомним, что e-value вычисляется по следующей формуле (K и лямбда - константы, зависящие от используемой матрицы и штрафа за гэпы, m - длина искомой последовательности, n - размер банка, в нашем случае тоже константа, S - вес):

Или (вес в битах B):

При увеличении длины запроса e-value должно увеличиваться. Кажется, что отсюда следует, что при увеличении длины искомой последовательности должно появляться меньше находок с маленьким e-value. Однако (см. таблицу) этого не происходит. По количеству находок (и среднему, и медиане, и максимальному) мы наблюдаем волнообразное изменение с минимумом при length = 50 и падением при length = 400-500. Возможно, данный факт объясняется тем, что с увеличением длины запроса увеличивается и шанс найти случайно похожий кусок в базе. И пусть в среднем e-value таких находок падает (может быть, доля тех, что имеют e-value < 0.1 и становится меньше), но за счёт увеличения их общего числа количественного падения мы не наблюдаем.


© Быкова Даша, 2018