Учебная страница курса биоинформатики,
год поступления 2015
Построение и характеристика профиля
Подсемейство и выборка из него
Подсемейство - не то же, что выборка из него!
- Выберите кладу на дереве, листья будут составлять выборку
- Выборка хорошая, если вы можете охарактеризовать ее в терминах
- доменной архитектуры,
- таксономической принадлежности или
- диагностических позиций в выравнивании
- Примеры
- "выборка состоит доменов белков 1й доменной архитектуры"
- "выборка состоит из доменов белков грибов со 2й доменной архитектурой"
- "выборка состоит из представителей бета-протеобактерий"
- "выборка состоит из белков млекопитающих, которых в позициях 23-25 выравнивания стоит мотив RGG" (такой способ связан с определенными трудностями проверки)
- Выборка хорошая, если вы можете охарактеризовать ее в терминах
- Подсемейство состоит из ВСЕХ последовательностей с данным доменом, для которых выполнены условия на выборку. Как правило, в подсемействе много больше последовательностей, чем в выборке.
- Отметьте всех представителей подсемейства (не выборки!) в файле .xlsx со списком всех последовательностей семейства с данным доменом (см. предыдущее задание)
- Ваша задача - построить профиль по ВЫБОРКЕ такой, который будет ловить всех представителей ПОДСЕМЕЙСТВА
- Извлеките представителей выборки из выравнивания и сохраните в отдельном файле.
Для построения профиля используйте пакет HMMER. Он установлен на kodomo. Подсказка ко всем трём программам даётся опцией -h. Более подробную информацию можно получить, выполнив команду man hmm2build (аналогично с hmm2calibrate и hmm2search).
Постройте профиль программой hmm2build.
Откалибруйте профиль программой hmm2calibrate
Проведите поиск по всем белкам Uniprot, включающим ваш домен, программой hmm2search, используя откалиброванный профиль. Вам понадобится файл в fasta-формате со всеми белками Uniprot, включающими хоть один домен из вашего Pfam-семейства.
- Сравнивать списки можно средствами Excel или Python. Приведите ссылки на исходные списки и на средства работы с ними (книгу Excel или скрипт).
Дополнительная информация
На kodomo, помимо пакета HMMER 2.3.2, установлен более новый пакет HMMER 3.0. Его программы отличаются отсутствием двойки в названии (например, hmmbuild вместо hmm2build). К сожалению, hmmbuild не принимает выравнивания в обычных форматах (fasta, aln, msf), поэтому с hmm2build работать проще. Впрочем, Jalview умеет сохранять выравнивания в стокгольмском формате, который hmmbuild понимает, поэтому можете работать с ним (или даже, как дополнительное задание, сравнить результаты работы старого и нового пакетов). Калибровка профиля в HMMER 3.0 не требуется.
UNDER CONSTRUCTION!