Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2013

EMBOSS

К следующему занятию:

– сделайте отчёт на сайте и пришлите ссылку для проверки,

– выучите введение в пакет EMBOSS, будет мини-контрольная.

1. Программа getorf пакета EMBOSS

Создайте в своей директории файл с записью D89965 банка EMBL (воспользуйтесь командой entret, системой SRS или сервисом Text search на сайте ENA).

В отчёте кратко опишите, как авторы записи аннотировали её (из какого организма, что за последовательнсоть, какие закодированные белки предсказаны).

Выполните команду tfm getorf. Разберитесь, как с помощью программы getorf получить набор трансляций всех открытых рамок данной последовательности, которые одновременно:

Командную строку приведите в отчёте.

Запустите getorf с указанными параметрами на последовательности из записи D89965. Определите, какая из найденных открытых рамок соответствует (полностью или частично) приведённой в поле FT кодирующей последовательности (CDS).

Создайте файл с последовательностью записи Swiss-Prot, на которую ссылается данная запись EMBL. Выясните, какой из полученных открытых рамок соответствует эта последовательность.

Указание. Если трудно найти нужную рамку "глазами", запустите программу needle, указав в качестве первого входа адрес соответствующей последовательности из Swiss-Prot, а в качестве второй – выдачу getorf (программа needle, если получает в качестве одного из входов USA не одной, а множества последовательностей, выполняет все возможные парные выравнивания).

В отчете на сайте опишите свои наблюдения, дайте ссылки на файлы и сделайте выводы и приведите возможные причины наблюдаемой ситуации.

2. Файлы-списки

С помощью программ пакета EMBOSS:

  1. Скачайте в файл adh.fasta в fasta-формате все доступные в Swiss-Prot последовательности алкогольдегидрогеназ: их идентификаторы описываются выражением adh*_*.

  2. Получите файл с универсальными адресами (USA) этих последовательностей: используйте программу infoseq с параметрами -only и -usa. То, что получится – пример файла-списка ("listfile").

  3. Получите из этого файла-списка другой, меньший, с адресами только тех последовательностей, которые взяты из ваших организмов. Используйте программу grep с параметром -f, чтобы подать ей на вход список слов для поиска.

  4. На основе нового файла-списка получите fasta-файл с последовательностями дегидрогеназ ваших организмов. Используйте программу seqret (посмотрите в wiki, как подать на вход файл-список).

В отчете укажите запущенные команды и их параметры. Дайте ссылку на файл с последовательностями ваших алкогольдегидрогеназ.

3. Случайная модель для оценки достоверности выравнивания

Стандартный приём для оценки достоверности вывода о реальности эффекта или факта на основе наблюдения – сравнение со случайной моделью. В нашем случае "факт" – гомология последовательностей, а "наблюдение" – вес их выравнивания.

  1. Выберите две любые "ваши" алкогольдегидрогеназы из предыдущего задания, лучше из далёких друг от друга организмов.
  2. Сделайте 100 случайных перемешиваний первой аминокислотной последовательности (поможет команда shuffleseq)

  3. С помощью программы 'water' пакета EMBOSS сделайте парные локальные выравнивания второй последовательности с исходной (неперемешанной) первой и с каждой из 100 перемешанных последовательностей. У вас получится 101 парное выравнивание.
  4. С помощью скрипта на Python или bash получите список весов этих выравниваний.
  5. Постройте в Excel гистограмму распределения полученных весов (шаг гистограммы подберите так, чтобы она была максимально информативна, с вашей точки зрения). В каком месте гистограммы оказался вес неперемешанной, исходной последовательности? Что это означает?
  6. (* дополнительно). Получите нуклеотидные последовательности генов тех же двух белков. Повторите предыдущие пункты для нуклеотидных последовательностей. Верно ли, что вес выравнивания реальных (не перемешанных) аминокислотных последовательностей сильнее отличается от получаемого по случайным причинам, чем вес выравнивания нуклеотидных последовательностей?