Учебная страница курса биоинформатики,
год поступления 2012
EMBOSS
К следующему занятию, помимо выполнения заданий, выучите сведения о пакете EMBOSS, приведённые на wiki.
1. Программа getorf пакета EMBOSS
Создайте в своей директории файл с записью D89965 банка EMBL (нужно воспользоваться командой entret или же системой SRS).
Выполните команду "tfm getorf" и разберитесь, как запустить программу getorf так, чтобы получить набор трансляций всех открытых рамок данной последовательности, которые определены при использовании стандартного кода и одновременно удовлетворяют следующим условиям:
- длина не менее 30 аминокислотных остатков;
- начинаются со старт-кодона (или начала последовательности) и заканчиваются стоп-кодоном (или концом последовательности).
Командную строку приведите в отчёте.
Запустите getorf с указанными параметрами на последовательности из записи D89965. Определите, какая из найденных открытых рамок соответствует (полностью или частично) приведённой в поле FT кодирующей последовательности (CDS).
Создайте файл с последовательностью записи Swiss-Prot, на которую ссылается данная запись EMBL. Выясните, какой из полученных открытых рамок соответствует эта последовательность.
Указание. Если трудно найти нужную рамку "глазами", запустите blastp по выдаче getorf (для этого не обязательно запускать makeblastdb, см. BLAST-2-Sequences options в help'е программы blastp).
В отчете на сайте опишите свои наблюдения, сделайте выводы и приведите возможные причины наблюдаемой ситуации.
2. Файлы-списки
С помощью программ пакета EMBOSS:
Скачайте в файл adh.fasta в fasta-формате все доступные в Swissprot последовательности алкогольдегидрогеназ: их идентификаторы описываются выражением adh*_*.
Получите файл с универсальными адресами (USA) этих последовательностей: используйте программу infoseq с параметрами -only и -usa. То, что получится – пример файла-списка ("листфайла").
Получите из этого файла-списка другой, меньший, с адресами только тех последовательностей, которые взяты из ваших организмов. Используйте программу grep с параметром -f, чтобы подать ей на вход список слов для поиска.
На основе нового файла-списка получите fasta-файл с последовательностями дегидрогеназ ваших организмов. Используйте программу seqret (посмотрите в wiki, как подать на вход файл-список).
В отчете укажите запущенные команды и их параметры. Дайте ссылку на файл с последовательностями ваших алкогольдегидрогеназ.
3. EnsEMBL
Портал EnsEMBL (читается "ансамбль", от французского слова "ensemble" отличается написанием, намекающим на банк EMBL) предназначен для визуализации известной информации о геномах человека и животных.
Для начала поищите информацию о гене человека, который вы выбрали на занятии по online BLAST (задание 2). Сначала получите последовательность всего гена,кодирующего данный белок, или (если ген состоит из большого числа экзонов) одного из длинных экзонов (подсказку о том, как это можно сделать, смотри в задании 2 занятия про нуклеотидные банки данных). Поищите ген или экзон в человеческом геноме сервисом "BLAST/BLAT" (гиперссылка вверху заглавной страницы). Опишите, что вы поняли на странице результата (можно описать и то, что осталось непонятным, несмотря на старания понять).
Далее пройдите по гиперссылке "Contig view", обозначенной маленькой буквой "C" левее первой находки (в таблице находок внизу страницы). Откроется страница "Region in detail", посвящённая участку человеческого генома. Опишите, какую информацию можно получить с этой страницы, какие возможности визуализации она предоставляет и т.д.
"Побродите" ещё по порталу, опишите, что вам удалось узнать о его возможностях.
Чем более информативным будет ваше описание, тем лучше. Оцениваться будет прежде всего проявление стремления освоить новый сервис, а также ясность изложения информации.
!! Выполнение данного задания обязательно. При выполнении к следующему занятию оно будет оцениваться высокими баллами. При выполнении позже оно будет оценено минимальными баллами!!