Изучение эволюции доменной архитектуры
Описание выбранного домена:
Я выбрала домен Glyco_hydro_9 (PF00759)
- Функция: Домен относится к одному из семейств гликозид гидролаз, осуществляющих гидролиз гликозидных связей между двумя или более углеводами, или между углеводной и неуглеводной частямир молекулы. Glycoside hydrolase family 9 составляют ферменты, в основном, с эндоглюканазной и целлюлазной акстивностями (Катализ эндогиролиза 1,4-β-D-гликозидных связей в целлюлозе)
- Число разных доменных архитектур с этим доменом: 83 (в 1442 последовательностях)
- Число представителей по таксонам высшего порядка:
Бактерии Археи Эукариоты 286 2 143
Выбранные архитектуры
Число представителей: 677
Монодоменная архитектура
число представителей: 55 (только бактерии)
Xарактеристика других доменов: Один - carbohydrate-binding module (углевод-связывающий
модуль). Второй - так называемый Dockerin, домен, входящий в белки, образующие целлюлолитические комплексы.Этот
домен может связываться с cohesin domain, образуя, собственно, целлюлолитические комплексы нескольких белков.
Таблица Exel
Выравнивание
Построение филогенетическое дерево выборки последовательностей домена, составленной ранее
Расшифровка обозначений в дереве:
-сначала цифра: 1- или 3- доменная архитектура;
-буква: E-эукаритоы; B-бактерии.
Скобочная формула дерева
Сначала с помощью программы fprotdist была построена матрица расстояний. Однако, судя по нескольким случайно выбранным примерам, она не так уж похожа на ультрамеричную => построила дерево с использованием алгоритма Neighbor-Joining. Следует отметить, что бактерии с однодоменной архитектурой очень плохо выравнивались со всем остальным, было достаточно трудно сделать достаточно объемную выборку из них. Причем, эти бактерии плохо выравнивались как межу собой, так и с бактериями трехдоменной архитектурой. Учитывая,что ветви бактерий, имеющих однодоменную архитектуру, в полученном дереве отходят в более-менее случайных местах, можно предположить, что белок, бывший ранее многодоменным, потерял какие-то участки и перестал функционировать => стал псевдогеном.
Эукариоты же, напротив, имея однодоменную архитектуру, хорошо выравниваются как между собой, так и с бактериями с трехдоменной архитектурой. И в дереве очень хорошо разделяются эукариотические и бактериальные клады. Это дает возмоджность предположить, что в эукариотических организмах как раз удачнее однодоменная архитектура, эволюционирующая независимо.
Судя по дереву, выбранные мной последовательности можно разделить на две группы в соответствии с таксономией.
Построение профиля
Профиль для бактерий
Профиль для эукариот
Таблица с анализом профилей В таблице желтым отмечен наиболее оптимальный порог. В целом, мне кажется, что профили получились не очень удачными, так, например, для бактерий представители с однодоменной архитектурой имели очень низкий score и быстро "отсеивались". Порог в данном случае выбирался в той точке, где количество ошибок первого рода равно количеству ошибок второго рода.
score=61.960 false positive=3 false negative=3 true positive=32 true negative=6;
Профиль для эукариот также имеет недостатки: при достаточно больших порогах не отсеивались бактериальные последовательности.
score=77.230 false positive=2 false negative=1 true positive=8 true negative=33.
Все же я решила поискать в swissprot и по эукариотическому и по бактериальному профилю с выбранными ранее порогами. Нашлось очень мало последовательностей, при чем, к сожалению, не видно коррелляции между профилем и принадлежностью находок к какому-либо царству: и в первом и во втором случаях присутствуют и эукариоты и прокариоты. Обрадовало, однако, что нашлись некоторые белки, на основании которых строились профили и что все находки - белки - эндоглюканазы.
Поиск по swissprot (бактериальный профиль)
Поиск по swissprot (эукариотический профиль)