Учебная страница курса биоинформатики,
год поступления 2020
Словарик
Эволюционный домен - определяем согласно базе данных Pfam
[Pfam - не истина в последней инстанции; например, бывают белки, в последовательности которых Pfam не находит ни одного эволюционного домена; это не значит, что доменов нет, скорее есть, но Pfam про них еще не знает]
Доменная архитектура - последовательность эволюционных доменов белка; вспомогательные участки в Pfam не в счёт - участки малой сложности, трансмембранные и др., изображённые бледными прямоугольничками разных оттенков
Семейство белков - множество гомологичных белков. Требуется уточнение, т.к. белки могут иметь гомологичные домены, а остальные их части могут не быть гомологичны, например, включать разные домены.
В задании есть два семейства
Семейство 1: семейство белков, содержащих выбранный домен. Второе - семейство белков, с определенной двудоменной архитектурой, в которой один из доменов -
Семейство 2: семейство белков, с двухдоменной архитектурой, в которой один из доменов - выбранный. Значит, второе семейство - подсемейство первого.
Цель задания - создать правило отнесения неизвестного белка с известной последовательностью к семейству 2 (ответ: входит или не входит) и проверить хорошо ли работает правило. Что использовать: пакет программ построения HMM профиля и поиска по профилю в БД или множестве последовательностей (HMMER 2.3.2); выбор порога веса находки для отнесения к семейству - за вами.
Проверка профиля:" поиск по профилю по последовательностям белков семейства 1 и сравнение результата (списка находок) - со списком белков с выбранной архитектурой согласно Pfam.
См. также указания
число доменных архитектур >= 2; при этом два одинаковых домена, идущие подряд, считать за один - чаще всего, это HMM профиль нашёл начало домена и конец домена в последовательности, а середину не нашёл Все численные пороги - ориентировочные, выбирал так, чтобы получить наглядные результаты, упростить вашу работу и не сделать её, по возможности, осмысленной.
Не запускайте hmm2search без опции --cpu=1! По-умолчанию он занимает все ядра процессора, что не допустимо на учебном сервере. Если запускаете в непопулярное у других студентов время, то можете использовать 2 ядра, не больше. — ИР
A. Описание домена B. Описание архитектуры C. Сопроводительные материалы, доступные по ссылке или лежащие в указанной вашей директории на kodomo
==2. Постройте филогенетическое дерево для выбранного домена и проверьте образуют ли кладу в нем белки с выбранной доменной архитектурой == 1. Постройте HMM-профиль семейства белков и проверьте его работу
1.1 Выберите домен и доменную архитектуру, содержащую этот домен
1.2 Скачайте полные последовательности выборки full в формате fasta
1.3 Составьте таблицу c колонкой АС всех последовательностей full, отметьте какие имеют выбранную доменную архитектуру
1.4 Постройте выравнивание последовательностей с выбранной доменной архитектурой
1.5 Проведите ревизию выравнивания
1.5 Создайте HMM-профиль двух-доменной архитектуры
1.6 Выполните поиск по HMM-профилю в файле с последовательностями всех белков с данным доменом
1.7 Кратко опишите работу и понятно опишите результат и заключение
Входные данные для программы поиска по профилю - построенный профиль и множество последовательностей для которых известно про каждую последовательность входит она в семейство или нет. В качестве такого множества предлагается взять последовательности всех белков, содержащих ОДИН ВЫБРАННЫЙ ВАМИ домен, входящий в доменную архитектуру (никаких ограничений на наличие или число других доменов). Что должно быть представлено для проверки по HMM профилю
Дополнительное задание