Словарик
Эволюционный домен - определяем согласно базе данных Pfam
[Pfam - не истина в последней инстанции; например, бывают белки, в последовательности которых Pfam не находит ни одного эволюционного домена; это не значит, что доменов нет, скорее есть, но Pfam про них еще не знает]
Доменная архитектура - последовательность эволюционных доменов белка; вспомогательные участки в Pfam не в счёт - участки малой сложности, трансмембранные и др., изображённые бледными прямоугольничками разных оттенков
Семейство белков - множество гомологичных белков. Требуется уточнение, т.к. белки могут иметь гомологичные домены, а остальные их части могут не быть гомологичны, например, включать разные домены.
В задании есть два семейства
Семейство 1: семейство белков, содержащих выбранный домен. Второе - семейство белков, с определенной двудоменной архитектурой, в которой один из доменов -
Семейство 2: семейство белков, с двухдоменной архитектурой, в которой один из доменов - выбранный. Значит, второе семейство - подсемейство первого.
Цель задания - создать правило отнесения неизвестного белка с известной последовательностью к семейству 2 (ответ: входит или не входит) и проверить хорошо ли работает правило. Что использовать: пакет программ построения HMM профиля и поиска по профилю в БД или множестве последовательностей (HMMER 2.3.2); выбор порога веса находки для отнесения к семейству - за вами.
Проверка профиля:" поиск по профилю по последовательностям белков семейства 1 и сравнение результата (списка находок) - со списком белков с выбранной архитектурой согласно Pfam.
1. Постройте HMM-профиль семейства белков и проверьте его работу
См. также указания
1.1 Выберите домен и доменную архитектуру, содержащую этот домен
- Пожелание: выбирайте домен, почему-либо интересный вам: он из белка, про который вы что-то знаете или понятна его функция или ещё почему-либо
- Требования:
- Выбирайте домен
- c числом последовательностей в full менее пары сотен, но более 40
- cредняя длина домена - менее 150 (чтобы не усложнять свою работу)
- Среднее сходство (identity) более 40%
- Средний процент покрытия последовательности белка доменом (coverage) оставляет место для второго домена
число доменных архитектур >= 2; при этом два одинаковых домена, идущие подряд, считать за один - чаще всего, это HMM профиль нашёл начало домена и конец домена в последовательности, а середину не нашёл
- Одна из доменных архитектур подходит для выбора
- Выбираете доменную архитектуру
- в ней есть ещё один домен, кроме выбранного; рекомендуется взять именно двухдоменную архитектуру
- встречается более, чем у 20 белков но менее чем у половины белков с выбранным доменом.
- Выбирайте домен
Все численные пороги - ориентировочные, выбирал так, чтобы получить наглядные результаты, упростить вашу работу и не сделать её, по возможности, осмысленной.
1.2 Скачайте полные последовательности выборки full в формате fasta
1.3 Составьте таблицу c колонкой АС всех последовательностей full, отметьте какие имеют выбранную доменную архитектуру
1.4 Постройте выравнивание последовательностей с выбранной доменной архитектурой
1.5 Проведите ревизию выравнивания
1.5 Создайте HMM-профиль двух-доменной архитектуры
1.6 Выполните поиск по HMM-профилю в файле с последовательностями всех белков с данным доменом
Не запускайте hmm2search без опции --cpu=1! По-умолчанию он занимает все ядра процессора, что не допустимо на учебном сервере. Если запускаете в непопулярное у других студентов время, то можете использовать 2 ядра, не больше.
— ИР
1.7 Кратко опишите работу и понятно опишите результат и заключение
Какие данные следует предъявить для проверки:
A. Описание домена
- Идентификатор и название домена
- Число белков с доменом в выборках seed, full и Uniprot
- Длину профиля HMM домена из Pfam
B. Описание архитектуры
- Идентификатор и название 2го домена. Порядок доменов в архитектуре
- Число белков с архитектурой в вашем выравнивании
- Команды построения профиля, калибровки, поиска по профилю
- Длину профиля HMM двухдоменной архитектуры, созданного вами. Считают только строки m (match)
C. Сопроводительные материалы, доступные по ссылке или лежащие в указанной вашей директории на kodomo
- Таблицу с колонками:
- (1) AC белков с доменом; (2) отметка о выбранной архитектурой белка; (3) отметка о включении белка в выравнивание для построения HMM Профиля (4-5) для последовательностей, найденных вашим профилем вес находки и E-value
- Файл c последовательностями full в fasta, использованные для поиска по вашему профилю
- Файл с выравниванием белков с выбранной архитектурой
- Файл с выравниванием белков после ревизии, использованный для построения HMM профиля
- HMM профиль после калибровки как файл
- Файл с результатами HMMsearch
Входные данные для программы поиска по профилю - построенный профиль и множество последовательностей для которых известно про каждую последовательность входит она в семейство или нет. В качестве такого множества предлагается взять последовательности всех белков, содержащих ОДИН ВЫБРАННЫЙ ВАМИ домен, входящий в доменную архитектуру (никаких ограничений на наличие или число других доменов).
Что должно быть представлено для проверки по HMM профилю
- Гистограмма длин белков семейства и указание выбранного интервала характерных длин.
- Выравнивание последовательностей выборки
- Таблица с результатами поиска по профилю и колонкой с отметкой, совпадает ли доменная архитектура с выбранной. И колонки: чувствительность при данном пороге и единица минус специфичность.
Дополнительное задание
==2. Постройте филогенетическое дерево для выбранного домена и проверьте образуют ли кладу в нем белки с выбранной доменной архитектурой ==