1. Пройдите тест на знание молекулярных сигналов из лекций и презентаций
В начале практикума. До того тест закрыт. ААл
2. Тема: построение профиля семейства белков и проверка его работы
Задание носит учебный характер так как предусмотрена проверка решения на множестве последовательностей с известным ответом. Решение (профиль) позволяет выделить семейство белков, гомологичных по всей длине, а именно, белков с одинаковой доменной архитектурой.
Доменная архитектура - последовательность эволюционных доменов белка. У нас эволюционные домены определяются согласно БД Pfam. [оговорка: Pfam - не истина в последней инстанции; например, бывают белки, в последовательности которых Pfam не находит ни одного эволюционного домена; это не значит, что доменов нет, скорее есть, но Pfam про них еще не знает]
Семейство белков: выбираете доменную архитектуру, семейство составляют все белки с этой доменной архитектурой. Если окажется, что таких белков очень много - много десятков тысяч или даже сотни тысяч, то можно ограничиться белками из определённого таксона высокого уровня (например, бактериями; можно и др. таксонами).
Составляете таблицу 1: Белки с доменной архитектурой ............... из таксона ...............
Цель задания - создать правило отнесения неизвестного белка с известной последовательностью к семейству (ответ: входит или не входит) и проверить хорошо ли работает правило. Что использовать: пакет программ построения HMM профиля и поиска по профилю в БД или множестве последовательностей (HMMER 2.3.2); выбор порога веса находки для отнесения к семейству - за вами.
Входные данные для программы построения профиля - множественное выравнивание представительной выборки белков из семейства. Размер выборки - не менее нескольких десятков белков, не более нескольких сот белков. Необходима экспертная ревизия этого выравнивания - удаление последовательностей, в принадлежности которых семейству есть сомнения; удаление повторяющихся последовательностей. Выборка - это выборка, она не должна содержать все белки семейства!
Входные данные для программы поиска по профилю - построенный профиль и множество последовательностей для которых известно про каждую последовательность входит она в семейство или нет. В качестве такого множества предлагается взять последовательности всех белков, содержащих ОДИН ВЫБРАННЫЙ ВАМИ домен, входящий в доменную архитектуру (никаких ограничений на наличие или число других доменов). Если было ограничение таксоном, его следует применить и здесь. Кроме последовательностей в фаста файле, нужна таблица (таблица 2) всех белков с выбранным доменом. По определению все белки из семейства, т.е. из таблицы 1, входят в таблицу 2.
Результат поиска по профилю - таблица находок с указанием веса находки и E-value (как у BLAST). Переносите эти данные в колонку таблицы 2.
2.1 Выберите домен и доменную архитектуру, содержащую этот домен
Рекомендуется выбрать домен, изученный вами при выполнении практикума 13 второго семестра.
В таком случае можно сослаться на ваш сайт с заданием 13 для описания домена.
- Требования:
- Выбираете доменную архитектуру, в которую входит выбранный домен. Для простоты лучше взять двухдоменную, если есть.
- Выбранная архитектура встречается более, чем у 100 белков и менее чем у 10000. Если белков больше 10000, то можно дополнительно ограничиться белками из определенного таксона, такого, для которого условия соблюдены. Ниже я пишу, как будто выбран таксон Bacteria. Смысл ограничения — чтобы файлы были разумных размеров. Относитесь к ограничениям соответственно.
- Составьте таблицу 1 с информацией о всех [бактериальных] белках с выбранной доменной архитектурой и сохраните её в Excel (или в google sheet). Информация должна включать: protein name, length, домены Pfam, organism, phylum (т.е. отдел), family, genus
- Определите интервал характерных длин белков от – до (мода на гистограмме длин)
- Составьте выборку из 40 – 60 последовательностей характерной длины. Чтобы получить представительную выборку, выбирайте представителей из разных таксонов (отделов, семейств, родов).
2.2. Постройте hmm профиль семейства белков с выбранной доменной архитектурой и проверьте его работу
Не запускайте hmm2search без опции --cpu=1! По-умолчанию он занимает все ядра процессора, что не допустимо на учебном сервере. Если запускаете в непопулярное у других студентов время, то можете использовать 2 ядра, не больше.
— ИР
Следуйте указаниям
- Скачайте последовательности выборки
- Выровняйте последовательности и проведите ревизию выравнивания
- Постройте HMM профиль выравнивания, калибруйте его.
- Проверьте работу профиля.
- Скачайте последовательности (в формате .fasta), содержащие выбранный домен.
- Выполните поиск по профилю и внесите результат в табл. 2
- Напишите отчет о полученных результатах
Что должно быть представлено для проверки по HMM профилю
- Таблица 1 белков с выбранной доменной архитектурой
- Гистограмма длин белков семейства и указание выбранного интервала характерных длин.
- Список выборки - отметки в табл.1.
- Выравнивание последовательностей выборки
- Команда построения профиля, калибровки
- HMM профиль после калибровки как файл.
- Команда поиска.
- Таблица с результатами поиска по профилю и колонкой с отметкой, совпадает ли доменная архитектура с выбранной. И колонки: чувствительность при данном пороге и единица минус специфичность.
- ROC кривая
- Распределение весов находок (для визуализации ступеньки веса)
- Выбранный вами порог для предсказания выбранной архитектуры и таблица 2х2: предсказание против "истины"
- Обсуждение
Дополнительное задание
Делать не обязательно!!!
3. Сравните филогенетические деревья двух доменов из выбранной доменной архитектуры
Указания еще не готовы.

2025
2024
2023
2022
2021
2020
2018
2017
Тест по сигналам