Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2019

1. Пройдите тест на знание молекулярных сигналов из лекций и презентаций

В начале практикума. До того тест закрыт. ААл

2. Тема: построение профиля семейства белков и проверка его работы

Задание носит учебный характер так как предусмотрена проверка решения на множестве последовательностей с известным ответом. Решение (профиль) позволяет выделить семейство белков, гомологичных по всей длине, а именно, белков с одинаковой доменной архитектурой.

Доменная архитектура - последовательность эволюционных доменов белка. У нас эволюционные домены определяются согласно БД Pfam. [оговорка: Pfam - не истина в последней инстанции; например, бывают белки, в последовательности которых Pfam не находит ни одного эволюционного домена; это не значит, что доменов нет, скорее есть, но Pfam про них еще не знает]

Семейство белков: выбираете доменную архитектуру, семейство составляют все белки с этой доменной архитектурой. Если окажется, что таких белков очень много - много десятков тысяч или даже сотни тысяч, то можно ограничиться белками из определённого таксона высокого уровня (например, бактериями; можно и др. таксонами).

Составляете таблицу 1: Белки с доменной архитектурой ............... из таксона ...............

Цель задания - создать правило отнесения неизвестного белка с известной последовательностью к семейству (ответ: входит или не входит) и проверить хорошо ли работает правило. Что использовать: пакет программ построения HMM профиля и поиска по профилю в БД или множестве последовательностей (HMMER 2.3.2); выбор порога веса находки для отнесения к семейству - за вами.

Входные данные для программы построения профиля - множественное выравнивание представительной выборки белков из семейства. Размер выборки - не менее нескольких десятков белков, не более нескольких сот белков. Необходима экспертная ревизия этого выравнивания - удаление последовательностей, в принадлежности которых семейству есть сомнения; удаление повторяющихся последовательностей. Выборка - это выборка, она не должна содержать все белки семейства!

Входные данные для программы поиска по профилю - построенный профиль и множество последовательностей для которых известно про каждую последовательность входит она в семейство или нет. В качестве такого множества предлагается взять последовательности всех белков, содержащих ОДИН ВЫБРАННЫЙ ВАМИ домен, входящий в доменную архитектуру (никаких ограничений на наличие или число других доменов). Если было ограничение таксоном, его следует применить и здесь. Кроме последовательностей в фаста файле, нужна таблица (таблица 2) всех белков с выбранным доменом. По определению все белки из семейства, т.е. из таблицы 1, входят в таблицу 2.

Результат поиска по профилю - таблица находок с указанием веса находки и E-value (как у BLAST). Переносите эти данные в колонку таблицы 2.

2.1 Выберите домен и доменную архитектуру, содержащую этот домен

Рекомендуется выбрать домен, изученный вами при выполнении практикума 13 второго семестра.

В таком случае можно сослаться на ваш сайт с заданием 13 для описания домена.

  1. Требования:
    1. Выбираете доменную архитектуру, в которую входит выбранный домен. Для простоты лучше взять двухдоменную, если есть.
    2. Выбранная архитектура встречается более, чем у 100 белков и менее чем у 10000. Если белков больше 10000, то можно дополнительно ограничиться белками из определенного таксона, такого, для которого условия соблюдены. Ниже я пишу, как будто выбран таксон Bacteria. Смысл ограничения — чтобы файлы были разумных размеров. Относитесь к ограничениям соответственно.
  2. Составьте таблицу 1 с информацией о всех [бактериальных] белках с выбранной доменной архитектурой и сохраните её в Excel (или в google sheet). Информация должна включать: protein name, length, домены Pfam, organism, phylum (т.е. отдел), family, genus
  3. Определите интервал характерных длин белков от – до (мода на гистограмме длин)
  4. Составьте выборку из 40 – 60 последовательностей характерной длины. Чтобы получить представительную выборку, выбирайте представителей из разных таксонов (отделов, семейств, родов).

2.2. Постройте hmm профиль семейства белков с выбранной доменной архитектурой и проверьте его работу

Не запускайте hmm2search без опции --cpu=1! По-умолчанию он занимает все ядра процессора, что не допустимо на учебном сервере. Если запускаете в непопулярное у других студентов время, то можете использовать 2 ядра, не больше.

— ИР

Следуйте указаниям

  1. Скачайте последовательности выборки
  2. Выровняйте последовательности и проведите ревизию выравнивания
  3. Постройте HMM профиль выравнивания, калибруйте его.
  4. Проверьте работу профиля.
    • Скачайте последовательности (в формате .fasta), содержащие выбранный домен.
    • Выполните поиск по профилю и внесите результат в табл. 2
  5. Напишите отчет о полученных результатах

Что должно быть представлено для проверки по HMM профилю

  1. Таблица 1 белков с выбранной доменной архитектурой
  2. Гистограмма длин белков семейства и указание выбранного интервала характерных длин.
  3. Список выборки - отметки в табл.1.
  4. Выравнивание последовательностей выборки
  5. Команда построения профиля, калибровки
  6. HMM профиль после калибровки как файл.
  7. Команда поиска.
  8. Таблица с результатами поиска по профилю и колонкой с отметкой, совпадает ли доменная архитектура с выбранной. И колонки: чувствительность при данном пороге и единица минус специфичность.
  9. ROC кривая
  10. Распределение весов находок (для визуализации ступеньки веса)
  11. Выбранный вами порог для предсказания выбранной архитектуры и таблица 2х2: предсказание против "истины"
  12. Обсуждение

Дополнительное задание

Делать не обязательно!!!

3. Сравните филогенетические деревья двух доменов из выбранной доменной архитектуры

Указания еще не готовы.

2019/4/task9 (последним исправлял пользователь aba 2021-10-04 18:21:26)