Учебная страница курса биоинформатики,
год поступления 2014
Задания блока 4. Практикумы 12 и 13
Все задания должны быть выполнены до коллоквиума 13 мая.
Задание 1. Построить выравнивание представителей домена Pfam белков с разной доменной архитектурой
См. указания
- Выбрать домен. Описать доменные архитектуры белков, содержащих домен.
- Выбрать две архитектуры, включающие этот домен
- Выбрать таксон и два-три его подтаксона для сравнения
- Выбрать не менее, чем по 15 представителей каждой из архитектур; для каждого подтаксона должно быть не менее 5 преставителей каждой архитектуры.
- Определить таксономию каждого представителя.
- Получить и, при необходимости, отредактировать совместное выравнивание всех отобранных последовательностей домена.
В отчете на сайте должно быть:
- Описание выбранного домена из Pfam:
- AC
- ID
- функция домена
- ссылка на страницу домена в Pfam
- Таблица или список разных доменных архитектур с этим доменом и указанием числа последовательностей (можно поставить ссылку на соответствующую страницу Pfam).
- Описание выбранных доменных архитектур; для каждой:
- число представителей
- характеристика других доменов
- Описание выбранного таксона и его подтаксонов.
- Ссылка на таблицу Excel с описанием всех белков из Uniprot, включающих домен и, на отдельном листе, с выборкой представителей с указанием доменной архитектуры и подтаксона.
Выравнивание отобранных вами последовательностей домена, разбитое на группы по доменным архитектурам и раскрашенное по консервативности внутри групп. Выравнивание должно быть обработано редактором JalView и сохранено как "Project" (File → Save project в главном окне) в файл с расширением jvp.
- Обоснование правильности выравнивания
Задание 2. Построить филогенетическое дерево последовательностей ДОМЕНА (а не полноразмерных белков)
См. указания
В отчете на сайте должно быть:
- Рисунок филогенетического дерева домена, раскрашенного и с "говорящими" именами листьев
- Расшифровка кодов доменной архитектуры и таксонов, используемых в названиях листьев
- Указание метода построения дерева
- Скобочная структура дерева или ссылка на файл с ней
- Описание эволюции доменных архитектур
- на какой ветви, какая перестройка
- число перестроек доменной архитектуры на дереве в вашей модели
- обсуждение
Возможны уточнения задания 3
Задание 3. Построить профиль подсемейства и охарактеризовать качество его работы
См. указания
Средства: программы пакета HMMER 2.3.2 (установлен на kodomo).
Последовательность действий
- Выделите хорошее подсемейство из выравнивания и сохраните в отдельном файле
- Постройте и откалибруйте профиль
- Проведите поиск по всем белкам Uniprot, включающим ваш домен
- Отметьте среди находок представителей подсемейства
- Охарактеризуйте результат поиска
В отчете на сайте должно быть:
- Ссылка на файл с результатами поиска и колонкой с отметкой "правильных" находок (например, в Excel формате)
- ROC-кривая
- Порог E-value и табличка 2x2 с результатами при выбранном пороге вида:
На самом деле |
принадлежит подсемейству |
не принадлежит |
сумма |
Выше порога по профилю |
X |
Y |
X+Y |
Ниже порога |
U |
V |
U+V |
сумма |
X + U |
Y + V |
X + Y + U + V |
Чувствительность и специфичность профиля, их еще называют ошибками первого и второго рода (см. http://en.wikipedia.org/wiki/Precision_and_recall). Из четырех чисел ученые люди умудряются рассчитать 13 (тринадцать)!!! ОЧЕНЬ ВАЖНЫХ ПАРАМЕТРОВ))), см. ссылку. Если разберетесь в некоторых, то будете молодцом.
- Заключение о возможности использования профиля для выделения подсемейства
Готовится...