Работа с программами пакета BLAST (продолжение)

Поиск открытых рамок считывания

Поиск открытых рамок считывания (далее ORF) осуществляется с помощью программы getorf пакета EMBOSS. Открытой рамкой считывания будем считать последовательность, начинающуюся старт-кодоном и оканчивающуюся стоп-кодоном. Чтобы получить набор трансляций всех ORF записи EMBL D89965 длиной более 30 нуклеотидов при использовании бактериального кода, следует запустить программу со следующими параметрами:
getorf -table 11 -minsize 30 -find 1 -sequence d89965.entret
где за тип ORF отвечает параметр find, организм, в геноме которого ведётся поиск - table, минимальную длину ORF в нуклеотидах - minsize.
В результате выполнения программы получен файл d89965.orf.
По итогам выполнения программы blastp получены файлы cds_result.txt и swiss_result.txt, представляющие из себя выравнивания, из которых становится очевидно, что из полученных рамок пятая соответствует приведённой в записи CDS, а тринадцатая - записи P0A7B8 SwissProt, на которую ссылается данная запись EMBL.

Поиск некодирующих последовательностей программами BLASTN, MEGABLAST, DISCONTIGOUS MEGABLAST

Требуется определить, сколько существует гомологов каждой из проаннотированных тРНК E. coli K12 в геномах бактерий i>Salmonella typhimurium LT2, Pasteurella multocida, Xanthomonas campestris.
Для этого проиндексируем геномы бактерий и запустим программу blastn по банку из 3 геномов сначала без ограничений на E-value, после с таковым:
blastall -p blastn -d all -i trna_ecoli.fasta -o 
trna_ecoli.out -m 9

blastall -p blastn -d all -i trna_ecoli.fasta -o 
trna_elimit.out -m 8 -e 0.001
Число находок для каждой последовательности в первом случае записывает в файл скрипт count1.scr. Аналогичным образом составляется скрипт для находок с ограничением по E-value.

Поиск гомологичных тРНК при помощи программ megablast и discontigous megablast осуществляется посредством выполнения команд соответственно:
megablast -d all -i trna_ecoli.fasta -o 
trna_megablast.out -m 9
megablast -d all -i trna_ecoli.fasta -o 
trna_disc_megablast.out -m 9 -D 2 -t 18 -W 11 -N 1
Параметр -D задаёт формат выдачи результатов, где 2 - стандартная выдача; -N - тип шаблона для поиска: кодирующая, некодирующая либо оба типа последовательностей (соответственно значения параметра 0, 1, 2); -W - длина искомого слова; -t - длина слова в используемом шаблоне (с учётом пропусков).
В discontigous megablast применяются следующие шаблоны:
W = 11, t = 16, coding:     
W = 11, t = 16, non-coding: 
W = 12, t = 16, coding:     
W = 12, t = 16, non-coding: 
W = 11, t = 18, coding:     
W = 11, t = 18, non-coding: 
W = 12, t = 18, coding:     
W = 12, t = 18, non-coding: 
W = 11, t = 21, coding:    
W = 11, t = 21, non-coding: 
W = 12, t = 21, coding:     
W = 12, t = 21, non-coding: 
Подробнее о работе программы
Информация, полученная на выходе выше указанных программ с теми или иными параметрами запуска, сведена в таблицу.

Анализ результатов

Рассмотрим пару последовательностей asnT E.coli и найденной программой blastn, но не обнаруженной megablast (это связано, по-видимому, с тем, что megablast ищет "слова" длины 28, а в данном выравнивании таких длинных слов нет).
Ей соответствует запись EMBL AE006136:
AC   AE006136; AE004439;
DE   Pasteurella multocida subsp. multocida str. Pm70 section 103 of 204 of the
DE   complete genome.
OS   Pasteurella multocida subsp. multocida str. Pm70
В EMBL в поле FT данный гомологичный участок (2435-2466) не проаннотирован.

Участок 2405..2474 записи AE006136 с помощью команды

seqret -sask
был вырезан в отдельный файл, исходная последовательность также выделена в отдельный файл.
Последовательности были выравнены с помощью программы needle, которая строит полное (в отличие от blastn) выравнивание.

Характеристики выравнивания:

# Длина: 76
# Идентичность:   55/76 (72.4%)
# Сходство:       55/76 (72.4%)
# Гэпы:           6/76 ( 7.9%)
# Счёт: 194.5
Выравнивания blastn и needle совпадают лишь посередине, blastn, стремясь повысить улучшить выравнивание, игнорирует концы последовательностей.

Сравнительно высокий процент идентичности последовательностей - потенциальных гомологов из разных организмов - указывает на значимость тРНК в клеточных процессах.