Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Словарик

Эволюционный домен - определяем согласно базе данных Pfam

[Pfam - не истина в последней инстанции; например, бывают белки, в последовательности которых Pfam не находит ни одного эволюционного домена; это не значит, что доменов нет, скорее есть, но Pfam про них ещё не знает]

Доменная архитектура - последовательность эволюционных доменов белка; вспомогательные участки в Pfam не в счёт - участки малой сложности, трансмембранные и др., изображённые бледными прямоугольничками разных оттенков

Семейство белков - множество гомологичных белков; термин требует уточнения, которое не всегда явно указано в статьях.

(1) Семейство белков, содержащих определённый домен - т.е. белки семейства гомологичны по домену, а остальные их части могут не быть гомологичны, например, включать разные домены. Обычно выбирают ключевой домен, например у ферментов - каталитический.

(2) Семейство белков с одинаковой доменной архитектурой. Можно ожидать, что все белки такого семейства гомологичны по всей длине, но следует проверять это построением выравнивания и проверкой того есть ли в нем длинные участки на которых не прослеживается сходства между всеми последовательностями.

Бывают, очевидно промежуточные определения семейства - по двум или нескольким гомологичным доменам.

В задании есть два семейства

Семейство 1: семейство белков, содержащих выбранный домен.

Семейство 2: семейство белков, с двухдоменной архитектурой, в которой один из доменов - выбранный. Значит, второе семейство - подсемейство первого.


Цель задания - создать правило отнесения неизвестного белка с известной последовательностью к семейству 2 (ответ: входит или не входит) и проверить хорошо ли работает правило. Что использовать: пакет программ HMMER 2.3.2. В нем есть программы построения HMM профиля

выбор порога веса находки для отнесения к семейству - за вами.

Проверка профиля:" поиск по профилю по последовательностям белков семейства 1 и сравнение результата (списка находок) - со списком белков с выбранной архитектурой согласно Pfam.

1. Постройте HMM-профиль семейства белков и проверьте его работу

См. также указания

.

.

.

1.1 Выберите домен и доменную архитектуру, содержащую этот домен

  • Пожелание: выбирайте домен, почему-либо интересный вам: он из белка, про который вы что-то знаете или понятна его функция или ещё почему-либо
  • Требования:
    1. Выбирайте домен
      1. c числом последовательностей в full менее пары сотен, но более 40
      2. cредняя длина домена - менее 150 (чтобы не усложнять свою работу)
      3. Среднее сходство (identity) более 40%
      4. Средний процент покрытия последовательности белка доменом (coverage) оставляет место для второго домена
      5. число доменных архитектур >= 2; при этом два одинаковых домена, идущие подряд, считать за один - чаще всего, это HMM профиль нашёл начало домена и конец домена в последовательности, а середину не нашёл

      6. Одна из доменных архитектур подходит для выбора
    2. Выбираете доменную архитектуру
      1. в ней есть ещё один домен, кроме выбранного; рекомендуется взять именно двухдоменную архитектуру
      2. встречается более, чем у 20 белков но менее чем у половины белков с выбранным доменом.

Все численные пороги - ориентировочные, выбирал так, чтобы получить наглядные результаты, упростить вашу работу и сделать её, по возможности, осмысленной.

1.2 Скачайте полные последовательности выборки full в формате fasta

1.3 Составьте таблицу c колонкой АС всех последовательностей full, отметьте какие имеют выбранную доменную архитектуру

1.4 Постройте выравнивание последовательностей с выбранной доменной архитектурой

1.5 Проведите ревизию выравнивания

1.6 Создайте HMM-профиль двух-доменной архитектуры

1.7 Выполните поиск по HMM-профилю в файле с последовательностями всех белков с данным доменом

Не запускайте hmm2search без опции --cpu=1! По-умолчанию он занимает все ядра процессора, что не допустимо на учебном сервере. Если запускаете в непопулярное у других студентов время, то можете использовать 2 ядра, не больше.

— ИР

1.8 На сайте кратко и понятно опишите результат и напишите заключение


Какие данные следует предъявить для проверки:

A. Описание домена

  1. Идентификатор и название домена
  2. Число белков с доменом в выборках seed, full и Uniprot
  3. Длину профиля HMM домена из Pfam

B. Описание архитектуры

  1. Идентификатор и название 2го домена. Порядок доменов в архитектуре
  2. Число белков с архитектурой в вашем выравнивании
  3. Команды построения профиля, калибровки, поиска по профилю
  4. Длину профиля HMM двухдоменной архитектуры, созданного вами. Считают только строки m (match)

C. Сопроводительные материалы, доступные по ссылке или лежащие в указанной вашей директории на kodomo

  1. Таблицу с колонками:
    • (1) AC белков с доменом; (2) отметка о выбранной архитектурой белка; (3) отметка о включении белка в выравнивание для построения HMM Профиля (4-5) для последовательностей, найденных вашим профилем вес находки и E-value
  2. Файл c последовательностями full в fasta, использованные для поиска по вашему профилю
  3. Файл с выравниванием белков с выбранной архитектурой
  4. Файл с выравниванием белков после ревизии, использованный для построения HMM профиля
  5. HMM профиль после калибровки как файл
  6. Файл с результатами HMMsearch

Входные данные для программы поиска по профилю - построенный профиль и множество последовательностей для которых известно про каждую последовательность входит она в семейство или нет. В качестве такого множества предлагается взять последовательности всех белков, содержащих ОДИН ВЫБРАННЫЙ ВАМИ домен, входящий в доменную архитектуру (никаких ограничений на наличие или число других доменов).

Что должно быть представлено для проверки по HMM профилю

  1. Гистограмма длин белков семейства и указание выбранного интервала характерных длин.
  2. Выравнивание последовательностей выборки
  3. Таблица с результатами поиска по профилю и колонкой с отметкой, совпадает ли доменная архитектура с выбранной. И колонки: чувствительность при данном пороге и единица минус специфичность.

Дополнительное задание

==2. Постройте филогенетическое дерево для выбранного домена и проверьте образуют ли кладу в нем белки с выбранной доменной архитектурой ==

2021/4/task9 (последним исправлял пользователь aba 2023-04-13 17:53:40)