Изучение эволюции доменной архитектуры


Описание выбранного домена:
Я выбрала домен Glyco_hydro_9 (PF00759)
  • Функция: Домен относится к одному из семейств гликозид гидролаз, осуществляющих гидролиз гликозидных связей между двумя или более углеводами, или между углеводной и неуглеводной частямир молекулы. Glycoside hydrolase family 9 составляют ферменты, в основном, с эндоглюканазной и целлюлазной акстивностями (Катализ эндогиролиза 1,4-β-D-гликозидных связей в целлюлозе)
  • Число разных доменных архитектур с этим доменом: 83 (в 1442 последовательностях)
  • Число представителей по таксонам высшего порядка:
    Бактерии Археи Эукариоты
    286 2 143

Выбранные архитектуры

Число представителей: 677
Монодоменная архитектура

число представителей: 55 (только бактерии)
Xарактеристика других доменов: Один - carbohydrate-binding module (углевод-связывающий модуль). Второй - так называемый Dockerin, домен, входящий в белки, образующие целлюлолитические комплексы.Этот домен может связываться с cohesin domain, образуя, собственно, целлюлолитические комплексы нескольких белков.
Таблица Exel
Выравнивание

Построение филогенетическое дерево выборки последовательностей домена, составленной ранее


Расшифровка обозначений в дереве:
-сначала цифра: 1- или 3- доменная архитектура;
-буква: E-эукаритоы; B-бактерии.

Скобочная формула дерева
Сначала с помощью программы fprotdist была построена матрица расстояний. Однако, судя по нескольким случайно выбранным примерам, она не так уж похожа на ультрамеричную => построила дерево с использованием алгоритма Neighbor-Joining. Следует отметить, что бактерии с однодоменной архитектурой очень плохо выравнивались со всем остальным, было достаточно трудно сделать достаточно объемную выборку из них. Причем, эти бактерии плохо выравнивались как межу собой, так и с бактериями трехдоменной архитектурой. Учитывая,что ветви бактерий, имеющих однодоменную архитектуру, в полученном дереве отходят в более-менее случайных местах, можно предположить, что белок, бывший ранее многодоменным, потерял какие-то участки и перестал функционировать => стал псевдогеном.
Эукариоты же, напротив, имея однодоменную архитектуру, хорошо выравниваются как между собой, так и с бактериями с трехдоменной архитектурой. И в дереве очень хорошо разделяются эукариотические и бактериальные клады. Это дает возмоджность предположить, что в эукариотических организмах как раз удачнее однодоменная архитектура, эволюционирующая независимо.

Судя по дереву, выбранные мной последовательности можно разделить на две группы в соответствии с таксономией.

Построение профиля


Профиль для бактерий
Профиль для эукариот
Таблица с анализом профилей В таблице желтым отмечен наиболее оптимальный порог. В целом, мне кажется, что профили получились не очень удачными, так, например, для бактерий представители с однодоменной архитектурой имели очень низкий score и быстро "отсеивались". Порог в данном случае выбирался в той точке, где количество ошибок первого рода равно количеству ошибок второго рода.
 score=61.960	false positive=3	false negative=3
			true positive=32	true negative=6;

Профиль для эукариот также имеет недостатки: при достаточно больших порогах не отсеивались бактериальные последовательности.
 score=77.230	false positive=2	false negative=1
			true positive=8		true negative=33.

Все же я решила поискать в swissprot и по эукариотическому и по бактериальному профилю с выбранными ранее порогами. Нашлось очень мало последовательностей, при чем, к сожалению, не видно коррелляции между профилем и принадлежностью находок к какому-либо царству: и в первом и во втором случаях присутствуют и эукариоты и прокариоты. Обрадовало, однако, что нашлись некоторые белки, на основании которых строились профили и что все находки - белки - эндоглюканазы.
Поиск по swissprot (бактериальный профиль)
Поиск по swissprot (эукариотический профиль)