Эволюционные домены

Задание 1. Построить выравнивание представителей домена Pfam белков с разной доменной архитектурой. 

Было выбрано семейство белковых доменов OHCU_decarbox, учавствующих в катаболизме пурина.
Данный домен представлен в 893 видах, включает в себя 1084 последовательности и включает в себя 17 разных архитектур.
Ссылка на домен в pfam.

ID: OHCU_decarbox
AC: PF09349

Выбранные архитектуры:
1) OHCU_decarbox
756 последовательностей (21 из них только фрагменты), состоит из единственного домена OHCU_decarbox.


2)  OHCU_decarbox, Transthyretin
92 последовательности (3 из них только фрагменты), состоит из двух доменов OHCU_decarbox и Transthyretin (PF00576), принадлежащего к семейству гормон-связывающих белка, ответственных за транспорт тироксина из крови в мозг.


Была составлена сводная таблица. Таблица.
А также полное выравнивание в jalview.


Задание 2.  Построить филогенетическое дерево последовательностей домена

В качестве подтаксонов для последующей работы были выбраны царства Eukatota и Bacteria.
Из каждой архитектуры каждого подтаксона были выбраны последовательности, а затем для них было получено выравнивание по домену OHCU_decarbox из общего выравнивания всех последовательностей с этим доменом.
По этому выравниванию было построено дерево методом Neighbor-Joininh, с сотней bootstrap реплик.


Зеленым выделены последовательности бактерий с доменной архитектурой OHCU_decarbox; желтым из бактерий с архитектурой OHCU_decarbox,
Transthyretin; синим из эукариот с архитектурой OHCU_decarbox; и красным из эукариот с архитектурой OHCU_decarbox, Transthyretin.

Вообще, по этому дереву трудно что-то внятное сказать. Что происходило раньше, эволюция доменных архитектур или расхождение таксонов, вопрос спорный. С одной стороны мы явно видим отделившуюся в кладу с хорошей бустрэп поддержкой группу эукариот с двудоменной архитектурой. С другой стороны, во всех остальных кладах творится мешанина из всех сочетаний архитектур и таксонов. Возможно, изначально у предка имелся один вид архитектуры, а потом после расхождения видов с этой архитектурой начали происходить разного рода мутации. Но из-за качества дерева очень трудно понять и утверждать что-то достоверно.

Задание 3. Построить профиль подсемейства и охарактеризовать качество его работы

Наиболее удачное семейство для дальнейшей работы отмечено на дереве черной рамкой.


Выбраные последовательности бали оработаны програмным пакетом HMM. То есть был построен профиль, откалиброван, а затем по нему был осуществлен поиск по файлу uniprot, содержащему все последовательности с доменом PF09349.
Обработаные результаты можно посмотреть в таблице.
По ним была построена ROC - кривая.


Порог e-value определялся по ROC-кривой, по месту входа кривой на плато, которое совпало с точкой, где чувствительность равна единице.
Порог e-value: 2.7E-094

Статистические результаты:

Входит в семейство Не входит в семейство Сумма
Отнесли к семейству 8 8 16
Отвергли 0 642 642
Сумма 8 650 658


Назад к странице четвертого семестра.


© Григорий Сафронов