- Работа с программой getorf пакета EMBOSS
Создайте в своей директории файл с записью D89965 банка EMBL.
Выполните команду
tfm getorf
и разберитесь, как запустить программу getorf так, чтобы получить
набор трансляций всех открытых рамок данной последовательности
длиной более 30
нуклеотидов, считая открытой рамкой последовательность триплетов,
начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном,
при использовании бактериального кода. Командную строку
приведите в отчёте.
Запустите getorf с указанными параметрами на последовательности из
записи D89965. Определите, какая из найденных открытых рамок соответствует
приведённой в записи CDS. Определите также, какая из рамок соответствует
записи Swiss-Prot, на которую ссылается данная запись EMBL.
- Поиск некодирующих последовательностей программой BLASTN
В файле P:\y07\Term3\EMBL\trna_ecoli.fasta лежат последовательности
всех тРНК, проаннотированных в полном геноме E.coli K12. Ваша
задача — определить, сколько гомологов каждой из тРНК находит программа
BLASTN в трёх геномах (см. предыдущее занятие).
Этапы работы.
Повторите поиск, на этот раз указав порог на E-value, равный 0.001.
Добавьте в отчётную таблицу соответствующий столбец.
- Поиск некодирующих последовательностей программой megablast
Повторите предыдущее задание, используя вместо BLASTN сначала
обычный megablast, а затем разрывный ("discontigous") megablast.
Программа megablast запускается с опциями,
большая часть которых аналогична опциям программы blastall;
при этом можно использовать те же индексные файлы. Смысл некоторых опций,
впрочем, отличается; разберитесь с ними, читая
описание параметров.
Чтобы запустить discontigous
megablast, нужно явно указать правильные значения опций "-t",
"-W" и "-N"; какие именно — смотрите
в описании.
Результатом этого задания должны стать два дополнительных столбца
в отчётном Excel-файле и абзац в протоколе, с обязательным указанием
командных строк, использованных для запуска megablast.
- Минимальный анализ результатов
В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLAST
выберите какую-нибудь пару из tRNA E.coli и найденного
в геноме другой бактерии гомологичного участка. Желательно
выбрать такую находку, которая, например, находится программой BLASTN
и не находится программой megablast, и постараться объяснить причину этого.
Приведите в протоколе значения полей AC, DE и OS соответствующей записи EMBL, а также
проаннотирован ли в EMBL (в поле FT) найденный гомологичный участок,
и если проаннотирован, то как.
Вырежьте гомологичный участок в отдельный файл командой
seqret -sask (будьте внимательны, следите
за направлением найденной последовательности относительно записи EMBL —
оно может быть прямым либо обратным,
и это можно узнать, глядя на выдачу BLAST!). Выделите исходную последовательность
также в отдельный файл. Выровняйте две последовательности программой needle,
в протоколе приведите характеристики выравнивания. Желателен биологически
осмысленный вывод.
- (*) Поиск некодирующих последовательностей программой Fasta
(дополнительное задание для любопытных)
Проделайте работу, аналогичную заданиям 2 и 3, используя для поиска программу fasta35.
Для этого придётся, во-первых, слить вместе три файла с геномами (поскольку
FastA работает с банками, находящимися в обычных fasta-файлах); во-вторых,
вырезать каждую из последовательностей из файла trna_ecoli.fasta в отдельный файл;
в третьих, научиться запускать fasta35, и в четвёртых, придумать запуск grep
на выходном файле программы fasta35, выдающий количество находок.
Указания