Геномное окружение. База данных GO


Получение информации о COG, к которому относится белок B1MZT6_LEUCK

Белок B1MZT6_LEUCK, декстрансукраза, относящаяся к гликозил гидролазам, бактерии Leuconostoc citreum KM20 как понятно из названия катализирует гидролиз гликозидных связей углеводов.

При помощи Conserved Domain Database (CDD) и базы данных по всем известным КОГам был найден КОГ, к которому относится декстрансукраза. При этом нашлось сразу несколько совпадений (хитов) по последовательности (233-548, 93-376, 60-214, 412-678 и 652-864), притом что длина белка 1791 аминокислотный остаток. Поэтому для каждого хита свой E-value (минимальный - 3.41e-15, максимальный - 1.66e-04).
Название, идентификатор и категория КОГа на английском - Glucan-binding domain (YG repeat), COG5263, Carbohydrate transport and metabolism.
Название и категория КОГа на русском - Глюкан-связывающий домен (тирозин-глициновый повтор), транспорт и метаболизм карбогидратов.

{Ссылка на изображение картированных находок на последовательность белка};
{Ссылка на выдачу CDD}.

Визуализация геномного окружения

Было получено изображение КОГа с помощью STRING. В окошко protein id/name вбивался UniProt идентификатор (B1MZT6_LEUCK) в качестве входного параметра. В результате получилась вот такая картинка, показывающая геномное окружение для декстрансукразы Leuconostoc citreum KM20:



LCK_01211 - это идентификатор белка, который подавался на вход. Видно, что цвет ребер графа различен и отражает различные "взаимодействия" между белками. Наибольшее количество ребер (синий цвет) отражает совместную встречаемость. Также встречаются ребра, отражающие совместное упоминание в Pub-Med Abstract (салатовый), соседство в геноме (зеленый). Итоговая таблица по всем узлам и ребрам графа представлена здесь.

Для того, чтобы ответить на вопрос о консервативности геномного окружения, необходимо рассмотреть функции белков (узлов) [1], а также соседство генов в различных организмах.

Таблица 1. Функции белков, входящими в геномное окружение для COG5263
Идентификатор белкаНазвание на русскомФункция
epsBпредполагаемая тирозинкиназаперенос фосфатной группы с АТФ на тирозиновый остаток белка
ppcAфосфенолпируваткарбоксилазаобразование оксалоацетата (ЩУК)
yphAНАДН дегидрогеназадегидрогенизирует НАДН, участвует в дыхательной цепи
LCK_01212, LCK_01394декстрансукразагидролиз гликозидных связей
LCK_01120леваназагидролиз гликозидных связей
LCK_01369АДФ-рибозилгликогидролазагидролиз связи АДФ-рибоза--белок
LCK_00853, LCK_00891антиген на поверхности клеткираспознавание антитела
LCK_00013membrane fusion proteinбелок, объединящий мембраны

По этой ссылке можно посмотреть на соседство генов.
Видно, что никакого паттерна повтора гена среди различных организмов нет. Большинство генов, располагающихся рядом, - это предполагаемые ортологи декстрансукразы. Почти все находки относятся к кладе Firmicutes. Возможно, наблюдаемый результат можно объяснить так: функции белков различны (не всех), поэтому ожидать, что они будут находиться близко друг к другу в геноме, не стоит (хотя это не какая-то аксиома, но все-таки довольно логичная закономерность).

Отнесение белка декстрансукразы из Leuconostoc citreum KM20 к терминам GO

Использовался поиск по последовательности белка инструментом AmiGO. Лучшая находка - белок Toxin B в Clostridium difficile (E-value 9.5e-19). Выравнивание хорошее, хотя и недостаточно, на мой взгляд, чтобы сказать, что это один и тот же белок. Несмотря на это, термины GO можно переносить с декстрансукразы на токсин B, как минимум потому что найденный белок обладает гликозилтрансферазной активностью, при этом обе эти бактерии (L.citreum и C.difficile) являются грамположительными.
Далее были составлены таблицы: таблица 2, показывающая описание в терминах GO лучшей находки, таблица 3, в которой приведены объяснения кодов достоверности:

Таблица 2. Термины GO, отнесенные к белку с идентификатором UniProt TOXB_PEPDI
АспектИдентификатор GOНазвание терминаПеревод названия терминаКод типа достоверности
биологический процессGO:0009405pathogenesisпатогенезIMP
клеточный компонентGO:0020002host cell plasma membraneплазматическая мембрана клетки хозяинаIMP
молекулярная функцияGO:0046527glucosyltransferase activityгликозилтрансферазная активностьIDA

Таблица 3. Описание кодов достоверности, использованных в Таблице 2.
Код типа достоверностиРасшифровка кода типа достоверностиОбъяснение
IMPInferred from Mutant Phenotype Функция, процесс или клеточная локализация предсказаны на основании отличий между двумя различными аллелями гена (один аллель - дикий тип, второй - мутантный, отсюда и название).
IDAInferred from Direct Assay Существуют молекулярно-биологические данные, которые были получены при направленном изучении процесса, компонента или функции интересующего объекта. Другими словами есть данные, полученные при направленном изучении объекта.

Краткое описание того, что вообще было сделано:

Сначала нужно было найти идентификатор геномного окружения, в который входит белок B1MZT6_LEUCK. Далее, использую STRING, найти белки (совокупность изоформ белка), которые входят в то же геномное окружение, что и выданный белок, при этом отображаются только те белки, для которых явно показано хоть какое-нибудь "взаимодействие" с белком, по которому ведется поиск. (Это могут быть самые разные "взаимодействия" - совместное упоминание в PubMed, близкое расположение в геноме, гомология)
После всех этих операций нужно было пробластить выданный белок инструментом AmiGO, взять лучшую находку и принять решение можно ли перенести термины GO на найденный белок. Если можно (наш вариант), то описать термины GO, а также коды достоверности (почему данный биологический аспект может быть отнесен к найденному белку). Результаты можно посмотреть в Таблице 2 и Таблице 3.

Ссылки:
1. Wikipedia.