Гомология и выравнивание

Выбор семейства белковых доменов

Для работы было выбрано семейство доменов Green fluorescent protein (GFP), которое объединяет структурно родственные белки, склонные к флуоресценции. Белки часто содержат структуру бета-бочонка из 11 бета-слоев, внутри которой располагается хромофор, который образуется автокаталитически без использования внешних кофакторов. Класический хромофор белка формируется из трех аминокислот 65Ser-Tyr-Gly67. В семействе помимо зеленой флуоресценции есть различные варианты цветов, при этом есть и белки не проявляющие флуоресцентную активность. На основе природных GFP были созданы многочисленные инженерные варианты белка, оптимизированные по яркости, спектру, скорости созревания и другим характеристикам.

Таблица 1. Характеристики семейства белковых доменов.
ХарактеристикаИнформация
AC pfamPF01353
ID pfamGreen fluorescent protein
#SEED33
#All930
#SW13
#architectures23
#3D
#Taxonomy
#eukaryota878
#archaea0
#bacteria29
#viruses23

Белковое семейство происходит и распространено среди эукариот. Среди находок есть белки вирусов и бактерий, которые имеют этот домен, скорее всего в геномы этих организмов эти конструкции были вставлены исследователями для проведения анализа экспрессии белков на которые были навешены эти домены. Архитектурно домен может быть представлен в белке в виде олигомеров (ди-, три- и тетра-), также среди других архитектур представлены белки вирусов, которые содержат эти домены как в середине последовательности, так и на концах. Среди архитектур белков была найдена архитектура ДНК-хеликазы, которая соединена с GFP доменом у Acropora tenuis (Purple tipped acropora). Возможно это была ошибка автоматической аннотации, потому что статей, описывающих присоединение домена к этому белку, не было найдено, также возможно это присоединение произошло в результате мутаций и перестроек в геноме коралла.

Выравнивание белковых доменов

Таблица 2. Описание выравнивания.
ХарактеристикаИнформация
Выравнивание seed33 последовательности и 339 колонок
МДБ-allКолонки 124-138
100% консервативные колонки в МДБ-allФункционально консервативные 124:[LIVM], 130:[YF], 131[AG], 135:[YF], 138:[YFH]
МДБ-notAllКолонки 205-217, последовательности 2-4, 6-7, 9, 10-12, 14, 16, 17-20
100% консервативные колонки в МДБ-notAllАбсолютно 207:G, 209:G, 210:F, 211:P, 212:V, 213:M Функционально 205:[VL], 208[ST]
Недостоверный блокКолонки 276-288 последовательности 8, 19-20, 25-27, 29

Ссылка на проект в Jalview.

Карта локального сходства

Таблица 3. Доменные архитектуры.
Информация
Доменная архитектура 1PF01543 - PF01542 - PF01539 - PF01560 - PF01538 - PF02907 - PF07652 - PF22027 - PF01006 - PF01001 - PF01506 - PF08300 - PF08301 - PF12941 - PF01353 - PF00998
Белок с архитектурой 1W8GG88_9HEPC
Доменная архитектура 2PF01353 - PF00271
Белок с архитектурой 2A0A7U3V1P0_ACRTE
Dot-plot
Рис. 1. Карта локального сходства.

Для сравнения был выбран белок ДНК-хеликаза с доменом GFP и полипротеин из Hepacivirus hominis. При этом домен в хеликазе укорочен (146 а.о.), в то время как в обычном домене порядка 214 а.о., что может говорить о том, что этот белок получился в результате мутации и не несет функционального GFP. При этом график показывает достаточную схожесть двух последовательностей, что говорит о гомологии белков. По графику видно, что в позиции 2408 и 2436 происходит разрыв прямой, это связано с гэпами, которые наблюдаются в вырванивании в последовательнсти вируса (1 гэп в 2408 позиции) и в последовательности коралла (2 гэпа в 2436 позиции).