Учебная страница курса биоинформатики,
год поступления 2019
1. Пройдите тест на знание молекулярных сигналов из лекций и презентаций
В начале практикума. До того тест закрыт. ААл
2. Тема: построение профиля семейства белков и проверка его работы
Задание носит учебный характер так как предусмотрена проверка решения на множестве последовательностей с известным ответом. Решение (профиль) позволяет выделить семейство белков, гомологичных по всей длине, а именно, белков с одинаковой доменной архитектурой.
Доменная архитектура - последовательность эволюционных доменов белка. У нас эволюционные домены определяются согласно БД Pfam. [оговорка: Pfam - не истина в последней инстанции; например, бывают белки, в последовательности которых Pfam не находит ни одного эволюционного домена; это не значит, что доменов нет, скорее есть, но Pfam про них еще не знает]
Семейство белков: выбираете доменную архитектуру, семейство составляют все белки с этой доменной архитектурой. Если окажется, что таких белков очень много - много десятков тысяч или даже сотни тысяч, то можно ограничиться белками из определённого таксона высокого уровня (например, бактериями; можно и др. таксонами).
Составляете таблицу 1: Белки с доменной архитектурой ............... из таксона ...............
Цель задания - создать правило отнесения неизвестного белка с известной последовательностью к семейству (ответ: входит или не входит) и проверить хорошо ли работает правило. Что использовать: пакет программ построения HMM профиля и поиска по профилю в БД или множестве последовательностей (HMMER 2.3.2); выбор порога веса находки для отнесения к семейству - за вами.
Входные данные для программы построения профиля - множественное выравнивание представительной выборки белков из семейства. Размер выборки - не менее нескольких десятков белков, не более нескольких сот белков. Необходима экспертная ревизия этого выравнивания - удаление последовательностей, в принадлежности которых семейству есть сомнения; удаление повторяющихся последовательностей. Выборка - это выборка, она не должна содержать все белки семейства!
Входные данные для программы поиска по профилю - построенный профиль и множество последовательностей для которых известно про каждую последовательность входит она в семейство или нет. В качестве такого множества предлагается взять последовательности всех белков, содержащих ОДИН ВЫБРАННЫЙ ВАМИ домен, входящий в доменную архитектуру (никаких ограничений на наличие или число других доменов). Если было ограничение таксоном, его следует применить и здесь. Кроме последовательностей в фаста файле, нужна таблица (таблица 2) всех белков с выбранным доменом. По определению все белки из семейства, т.е. из таблицы 1, входят в таблицу 2.
Результат поиска по профилю - таблица находок с указанием веса находки и E-value (как у BLAST). Переносите эти данные в колонку таблицы 2.
2.1 Выберите домен и доменную архитектуру, содержащую этот домен
Рекомендуется выбрать домен, изученный вами при выполнении практикума 13 второго семестра.
В таком случае можно сослаться на ваш сайт с заданием 13 для описания домена.
- Требования:
- Выбираете доменную архитектуру, в которую входит выбранный домен. Для простоты лучше взять двухдоменную, если есть.
- Выбранная архитектура встречается более, чем у 100 белков и менее чем у 10000. Если белков больше 10000, то можно дополнительно ограничиться белками из определенного таксона, такого, для которого условия соблюдены. Ниже я пишу, как будто выбран таксон Bacteria. Смысл ограничения — чтобы файлы были разумных размеров. Относитесь к ограничениям соответственно.
- Составьте таблицу 1 с информацией о всех [бактериальных] белках с выбранной доменной архитектурой и сохраните её в Excel (или в google sheet). Информация должна включать: protein name, length, домены Pfam, organism, phylum (т.е. отдел), family, genus
- Определите интервал характерных длин белков от – до (мода на гистограмме длин)
- Составьте выборку из 40 – 60 последовательностей характерной длины. Чтобы получить представительную выборку, выбирайте представителей из разных таксонов (отделов, семейств, родов).
2.2. Постройте hmm профиль семейства белков с выбранной доменной архитектурой и проверьте его работу
Не запускайте hmm2search без опции --cpu=1! По-умолчанию он занимает все ядра процессора, что не допустимо на учебном сервере. Если запускаете в непопулярное у других студентов время, то можете использовать 2 ядра, не больше.
— ИР
Следуйте указаниям
- Скачайте последовательности выборки
- Выровняйте последовательности и проведите ревизию выравнивания
- Постройте HMM профиль выравнивания, калибруйте его.
- Проверьте работу профиля.
- Скачайте последовательности (в формате .fasta), содержащие выбранный домен.
- Выполните поиск по профилю и внесите результат в табл. 2
- Напишите отчет о полученных результатах
Что должно быть представлено для проверки по HMM профилю
- Таблица 1 белков с выбранной доменной архитектурой
- Гистограмма длин белков семейства и указание выбранного интервала характерных длин.
- Список выборки - отметки в табл.1.
- Выравнивание последовательностей выборки
- Команда построения профиля, калибровки
- HMM профиль после калибровки как файл.
- Команда поиска.
- Таблица с результатами поиска по профилю и колонкой с отметкой, совпадает ли доменная архитектура с выбранной. И колонки: чувствительность при данном пороге и единица минус специфичность.
- ROC кривая
- Распределение весов находок (для визуализации ступеньки веса)
- Выбранный вами порог для предсказания выбранной архитектуры и таблица 2х2: предсказание против "истины"
- Обсуждение
Дополнительное задание
Делать не обязательно!!!
3. Сравните филогенетические деревья двух доменов из выбранной доменной архитектуры
Указания еще не готовы.
Тест по сигналам