Эволюционные домены
Задание
1. Построить выравнивание представителей домена Pfam белков с разной
доменной архитектурой.
Было выбрано семейство белковых доменов OHCU_decarbox, учавствующих в
катаболизме пурина.
Данный домен представлен в 893 видах, включает в себя 1084
последовательности и включает в себя 17 разных архитектур.
Ссылка
на домен в pfam.
ID: OHCU_decarbox
AC: PF09349
Выбранные архитектуры:
1) OHCU_decarbox
756 последовательностей (21 из них только фрагменты), состоит из
единственного домена OHCU_decarbox.
2) OHCU_decarbox, Transthyretin
92 последовательности (3 из них только фрагменты), состоит из двух
доменов OHCU_decarbox и Transthyretin (PF00576),
принадлежащего к
семейству гормон-связывающих белка, ответственных за транспорт
тироксина из крови в мозг.
Была составлена сводная таблица. Таблица.
А также полное выравнивание в jalview.
Задание
2. Построить филогенетическое дерево последовательностей
домена
В качестве подтаксонов для последующей работы были выбраны царства Eukatota и Bacteria.
Из каждой архитектуры каждого подтаксона были выбраны
последовательности, а затем для них было получено выравнивание по
домену OHCU_decarbox из общего выравнивания всех последовательностей с
этим доменом.
По этому выравниванию было построено дерево методом Neighbor-Joininh, с
сотней bootstrap реплик.
Зеленым выделены последовательности бактерий с доменной архитектурой
OHCU_decarbox; желтым из бактерий с архитектурой OHCU_decarbox,
Transthyretin; синим из эукариот с архитектурой OHCU_decarbox;
и
красным из эукариот с архитектурой OHCU_decarbox,
Transthyretin.
Вообще, по этому дереву трудно что-то внятное сказать. Что происходило
раньше, эволюция доменных архитектур или расхождение таксонов, вопрос
спорный. С одной стороны мы явно видим отделившуюся в кладу с хорошей
бустрэп поддержкой группу эукариот с двудоменной архитектурой. С другой
стороны, во всех остальных кладах творится мешанина из всех сочетаний
архитектур и таксонов. Возможно, изначально у предка имелся один вид
архитектуры, а потом после расхождения видов с этой архитектурой начали
происходить разного рода мутации. Но из-за качества дерева очень трудно
понять и утверждать что-то достоверно.
Задание
3. Построить профиль подсемейства и охарактеризовать качество его работы
Наиболее удачное семейство для дальнейшей работы отмечено на дереве
черной рамкой.
Выбраные последовательности бали оработаны програмным пакетом HMM. То
есть был построен профиль, откалиброван, а затем по нему был
осуществлен поиск по файлу uniprot, содержащему все последовательности
с доменом PF09349.
Обработаные результаты можно посмотреть в таблице.
По ним была построена ROC - кривая.
Порог e-value определялся по ROC-кривой, по месту входа кривой на
плато, которое совпало с точкой, где чувствительность равна единице.
Порог e-value: 2.7E-094
Статистические результаты:
|
Входит в семейство |
Не входит в семейство |
Сумма |
Отнесли к
семейству |
8 |
8 |
16 |
Отвергли |
0 |
642 |
642 |
Сумма |
8 |
650 |
658 |
Назад к странице четвертого семестра.
© Григорий Сафронов