- Работа с программой getorf пакета EMBOSS
Создайте в своей директории файл с записью D89965 банка EMBL.
Выполните команду
tfm getorf
и разберитесь, как запустить программу getorf так, чтобы получить
набор трансляций всех открытых рамок данной последовательности
длиной более 30
нуклеотидов, считая открытой рамкой последовательность триплетов,
начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном,
при использовании бактериального кода. Командную строку
приведите в отчёте.
Запустите getorf с указанными параметрами на последовательности из
записи D89965. Определите, какая из найденных открытых рамок соответствует
приведённой в записи CDS. Определите также, какая из рамок соответствует
записи Swiss-Prot, на которую ссылается данная запись EMBL.
- Поиск некодирующих последовательностей программой BLASTN
В файле P:\y08\Term_3\Block_2\trna_ecoli.fasta лежат последовательности
всех тРНК, проаннотированных в полном геноме E.coli K12. Ваша
задача — определить, сколько гомологов каждой из тРНК находит программа
BLASTN в геноме родственной бактерии
(см. предыдущее занятие).
Этапы работы.
Повторите поиск, на этот раз указав порог на E-value, равный 0.001.
Добавьте в отчётную таблицу соответствующий столбец.
- Поиск некодирующих последовательностей программой megablast
Повторите предыдущее задание, используя вместо BLASTN сначала
обычный megablast, а затем разрывный ("discontigous") megablast.
Программа megablast запускается с опциями,
большая часть которых аналогична опциям программы blastall;
при этом можно использовать те же индексные файлы. Смысл некоторых опций,
впрочем, отличается; разберитесь с ними, читая
описание параметров.
Чтобы запустить discontigous
megablast, нужно явно указать правильные значения опций "-t",
"-W" и "-N"; какие именно — смотрите
в описании.
Результатом этого задания должны стать два дополнительных столбца
в отчётном Excel-файле и абзац в отчете, с обязательным указанием
командных строк, использованных для запуска megablast.
- Анализ результатов
В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLAST
выберите какую-нибудь пару из tRNA E.coli и найденного
в геноме другой бактерии гомологичного участка. Желательно
выбрать такую находку, которая, например, находится программой BLASTN
и не находится программой megablast, и постараться объяснить причину этого.
Вырежьте гомологичный участок в отдельный файл командой
seqret -sask (будьте внимательны, следите
за направлением найденной последовательности относительно записи EMBL —
оно может быть прямым либо обратным,
и это можно узнать, глядя на выдачу BLAST!). Выделите исходную последовательность
также в отдельный файл. Выровняйте две последовательности программой needle,
в протоколе приведите характеристики выравнивания. Желателен биологически
осмысленный вывод.
Как проаннотирован гомологичный участок в записи EMBL, описывающей геном
бактерии?
- (*) Поиск некодирующих последовательностей программой Fasta
(дополнительное задание для любопытных)
Проделайте работу, аналогичную заданиям 2 и 3, используя для поиска программу fasta35.
Для этого придётся, во-первых,
вырезать каждую из последовательностей из файла trna_ecoli.fasta в отдельный файл;
во-вторых, научиться запускать fasta35, и в третьих, придумать запуск grep
на выходном файле программы fasta35, выдающий количество находок.
Указания
Все ли найденные программой BLASTN гомологи найдены также и программой FastA?
Если нет, приведите пример и постарайтесь разобраться, почему так получилось.