Учебная страница курса биоинформатики,
год поступления 2021
Словарик
Эволюционный домен - определяем согласно базе данных Pfam
[Pfam - не истина в последней инстанции; например, бывают белки, в последовательности которых Pfam не находит ни одного эволюционного домена; это не значит, что доменов нет, скорее есть, но Pfam про них ещё не знает]
Доменная архитектура - последовательность эволюционных доменов белка; вспомогательные участки в Pfam не в счёт - участки малой сложности, трансмембранные и др., изображённые бледными прямоугольничками разных оттенков
Семейство белков - множество гомологичных белков; термин требует уточнения, которое не всегда явно указано в статьях.
(1) Семейство белков, содержащих определённый домен - т.е. белки семейства гомологичны по домену, а остальные их части могут не быть гомологичны, например, включать разные домены. Обычно выбирают ключевой домен, например у ферментов - каталитический.
(2) Семейство белков с одинаковой доменной архитектурой. Можно ожидать, что все белки такого семейства гомологичны по всей длине, но следует проверять это построением выравнивания и проверкой того есть ли в нем длинные участки на которых не прослеживается сходства между всеми последовательностями.
Бывают, очевидно промежуточные определения семейства - по двум или нескольким гомологичным доменам.
В задании есть два семейства
Семейство 1: семейство белков, содержащих выбранный домен.
Семейство 2: семейство белков, с двухдоменной архитектурой, в которой один из доменов - выбранный. Значит, второе семейство - подсемейство первого.
Цель задания - создать правило отнесения неизвестного белка с известной последовательностью к семейству 2 (ответ: входит или не входит) и проверить хорошо ли работает правило. Что использовать: пакет программ HMMER 2.3.2. В нем есть программы построения HMM профиля
- и поиска по профилю в БД или множестве последовательностей.
выбор порога веса находки для отнесения к семейству - за вами.
Проверка профиля:" поиск по профилю по последовательностям белков семейства 1 и сравнение результата (списка находок) - со списком белков с выбранной архитектурой согласно Pfam.
См. также указания . . .
число доменных архитектур >= 2; при этом два одинаковых домена, идущие подряд, считать за один - чаще всего, это HMM профиль нашёл начало домена и конец домена в последовательности, а середину не нашёл Все численные пороги - ориентировочные, выбирал так, чтобы получить наглядные результаты, упростить вашу работу и сделать её, по возможности, осмысленной.
Не запускайте hmm2search без опции --cpu=1! По-умолчанию он занимает все ядра процессора, что не допустимо на учебном сервере. Если запускаете в непопулярное у других студентов время, то можете использовать 2 ядра, не больше. — ИР
A. Описание домена B. Описание архитектуры C. Сопроводительные материалы, доступные по ссылке или лежащие в указанной вашей директории на kodomo
==2. Постройте филогенетическое дерево для выбранного домена и проверьте образуют ли кладу в нем белки с выбранной доменной архитектурой == 1. Постройте HMM-профиль семейства белков и проверьте его работу
1.1 Выберите домен и доменную архитектуру, содержащую этот домен
1.2 Скачайте полные последовательности выборки full в формате fasta
1.3 Составьте таблицу c колонкой АС всех последовательностей full, отметьте какие имеют выбранную доменную архитектуру
1.4 Постройте выравнивание последовательностей с выбранной доменной архитектурой
1.5 Проведите ревизию выравнивания
1.6 Создайте HMM-профиль двух-доменной архитектуры
1.7 Выполните поиск по HMM-профилю в файле с последовательностями всех белков с данным доменом
1.8 На сайте кратко и понятно опишите результат и напишите заключение
Входные данные для программы поиска по профилю - построенный профиль и множество последовательностей для которых известно про каждую последовательность входит она в семейство или нет. В качестве такого множества предлагается взять последовательности всех белков, содержащих ОДИН ВЫБРАННЫЙ ВАМИ домен, входящий в доменную архитектуру (никаких ограничений на наличие или число других доменов). Что должно быть представлено для проверки по HMM профилю
Дополнительное задание