Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Словарик

Эволюционный домен - определяем согласно базе данных Pfam

[Pfam - не истина в последней инстанции; например, бывают белки, в последовательности которых Pfam не находит ни одного эволюционного домена; это не значит, что доменов нет, скорее есть, но Pfam про них еще не знает]

Доменная архитектура - последовательность эволюционных доменов белка; вспомогательные участки в Pfam не в счёт - участки малой сложности, трансмембранные и др., изображённые бледными прямоугольничками разных оттенков

Семейство белков - множество гомологичных белков. Требуется уточнение, т.к. белки могут иметь гомологичные домены, а остальные их части могут не быть гомологичны, например, включать разные домены.

В задании есть два семейства

Семейство 1: семейство белков, содержащих выбранный домен. Второе - семейство белков, с определенной двудоменной архитектурой, в которой один из доменов -

Семейство 2: семейство белков, с двухдоменной архитектурой, в которой один из доменов - выбранный. Значит, второе семейство - подсемейство первого.


Цель задания - создать правило отнесения неизвестного белка с известной последовательностью к семейству 2 (ответ: входит или не входит) и проверить хорошо ли работает правило. Что использовать: пакет программ построения HMM профиля и поиска по профилю в БД или множестве последовательностей (HMMER 2.3.2); выбор порога веса находки для отнесения к семейству - за вами.

Проверка профиля:" поиск по профилю по последовательностям белков семейства 1 и сравнение результата (списка находок) - со списком белков с выбранной архитектурой согласно Pfam.

1. Постройте HMM-профиль семейства белков и проверьте его работу

См. также указания

1.1 Выберите домен и доменную архитектуру, содержащую этот домен

  • Пожелание: выбирайте домен, почему-либо интересный вам: он из белка, про который вы что-то знаете или понятна его функция или ещё почему-либо
  • Требования:
    1. Выбирайте домен
      1. c числом последовательностей в full менее пары сотен, но более 40
      2. cредняя длина домена - менее 150 (чтобы не усложнять свою работу)
      3. Среднее сходство (identity) более 40%
      4. Средний процент покрытия последовательности белка доменом (coverage) оставляет место для второго домена
      5. число доменных архитектур >= 2; при этом два одинаковых домена, идущие подряд, считать за один - чаще всего, это HMM профиль нашёл начало домена и конец домена в последовательности, а середину не нашёл

      6. Одна из доменных архитектур подходит для выбора
    2. Выбираете доменную архитектуру
      1. в ней есть ещё один домен, кроме выбранного; рекомендуется взять именно двухдоменную архитектуру
      2. встречается более, чем у 20 белков но менее чем у половины белков с выбранным доменом.

Все численные пороги - ориентировочные, выбирал так, чтобы получить наглядные результаты, упростить вашу работу и не сделать её, по возможности, осмысленной.

1.2 Скачайте полные последовательности выборки full в формате fasta

1.3 Составьте таблицу c колонкой АС всех последовательностей full, отметьте какие имеют выбранную доменную архитектуру

1.4 Постройте выравнивание последовательностей с выбранной доменной архитектурой

1.5 Проведите ревизию выравнивания

1.5 Создайте HMM-профиль двух-доменной архитектуры

1.6 Выполните поиск по HMM-профилю в файле с последовательностями всех белков с данным доменом

Не запускайте hmm2search без опции --cpu=1! По-умолчанию он занимает все ядра процессора, что не допустимо на учебном сервере. Если запускаете в непопулярное у других студентов время, то можете использовать 2 ядра, не больше.

— ИР

1.7 Кратко опишите работу и понятно опишите результат и заключение


Какие данные следует предъявить для проверки:

A. Описание домена

  1. Идентификатор и название домена
  2. Число белков с доменом в выборках seed, full и Uniprot
  3. Длину профиля HMM домена из Pfam

B. Описание архитектуры

  1. Идентификатор и название 2го домена. Порядок доменов в архитектуре
  2. Число белков с архитектурой в вашем выравнивании
  3. Команды построения профиля, калибровки, поиска по профилю
  4. Длину профиля HMM двухдоменной архитектуры, созданного вами. Считают только строки m (match)

C. Сопроводительные материалы, доступные по ссылке или лежащие в указанной вашей директории на kodomo

  1. Таблицу с колонками:
    • (1) AC белков с доменом; (2) отметка о выбранной архитектурой белка; (3) отметка о включении белка в выравнивание для построения HMM Профиля (4-5) для последовательностей, найденных вашим профилем вес находки и E-value
  2. Файл c последовательностями full в fasta, использованные для поиска по вашему профилю
  3. Файл с выравниванием белков с выбранной архитектурой
  4. Файл с выравниванием белков после ревизии, использованный для построения HMM профиля
  5. HMM профиль после калибровки как файл
  6. Файл с результатами HMMsearch

Входные данные для программы поиска по профилю - построенный профиль и множество последовательностей для которых известно про каждую последовательность входит она в семейство или нет. В качестве такого множества предлагается взять последовательности всех белков, содержащих ОДИН ВЫБРАННЫЙ ВАМИ домен, входящий в доменную архитектуру (никаких ограничений на наличие или число других доменов).

Что должно быть представлено для проверки по HMM профилю

  1. Гистограмма длин белков семейства и указание выбранного интервала характерных длин.
  2. Выравнивание последовательностей выборки
  3. Таблица с результатами поиска по профилю и колонкой с отметкой, совпадает ли доменная архитектура с выбранной. И колонки: чувствительность при данном пороге и единица минус специфичность.

Дополнительное задание

==2. Постройте филогенетическое дерево для выбранного домена и проверьте образуют ли кладу в нем белки с выбранной доменной архитектурой ==

2020/4/task9 (последним исправлял пользователь aba 2022-04-07 17:39:54)