Геномное окружение. База данных GO
Получение информации о COG, к которому относится белок B1MZT6_LEUCK
Белок B1MZT6_LEUCK, декстрансукраза, относящаяся к гликозил гидролазам, бактерии Leuconostoc citreum KM20 как понятно из названия катализирует гидролиз гликозидных связей углеводов.
При помощи Conserved Domain Database (CDD) и базы данных по всем известным КОГам был найден КОГ, к которому относится декстрансукраза. При этом нашлось сразу несколько совпадений (хитов) по последовательности (233-548, 93-376, 60-214, 412-678 и 652-864), притом что длина белка 1791 аминокислотный остаток. Поэтому для каждого хита свой E-value (минимальный - 3.41e-15, максимальный - 1.66e-04).
Название, идентификатор и категория КОГа на английском - Glucan-binding domain (YG repeat), COG5263, Carbohydrate transport and metabolism.
Название и категория КОГа на русском - Глюкан-связывающий домен (тирозин-глициновый повтор), транспорт и метаболизм карбогидратов.
{Ссылка на изображение картированных находок на последовательность белка};
{Ссылка на выдачу CDD}.
Визуализация геномного окружения
Было получено изображение КОГа с помощью STRING. В окошко protein id/name вбивался UniProt идентификатор (B1MZT6_LEUCK) в качестве входного параметра. В результате получилась вот такая картинка, показывающая геномное окружение для декстрансукразы Leuconostoc citreum KM20:

LCK_01211 - это идентификатор белка, который подавался на вход. Видно, что цвет ребер графа различен и отражает различные "взаимодействия" между белками. Наибольшее количество ребер (синий цвет) отражает совместную встречаемость. Также встречаются ребра, отражающие совместное упоминание в Pub-Med Abstract (салатовый), соседство в геноме (зеленый). Итоговая таблица по всем узлам и ребрам графа представлена здесь.
Для того, чтобы ответить на вопрос о консервативности геномного окружения, необходимо рассмотреть функции белков (узлов) [1], а также соседство генов в различных организмах.
Таблица 1. Функции белков, входящими в геномное окружение для COG5263 | ||
---|---|---|
Идентификатор белка | Название на русском | Функция |
epsB | предполагаемая тирозинкиназа | перенос фосфатной группы с АТФ на тирозиновый остаток белка |
ppcA | фосфенолпируваткарбоксилаза | образование оксалоацетата (ЩУК) |
yphA | НАДН дегидрогеназа | дегидрогенизирует НАДН, участвует в дыхательной цепи |
LCK_01212, LCK_01394 | декстрансукраза | гидролиз гликозидных связей |
LCK_01120 | леваназа | гидролиз гликозидных связей |
LCK_01369 | АДФ-рибозилгликогидролаза | гидролиз связи АДФ-рибоза--белок |
LCK_00853, LCK_00891 | антиген на поверхности клетки | распознавание антитела |
LCK_00013 | membrane fusion protein | белок, объединящий мембраны |
По этой ссылке можно посмотреть на соседство генов.
Видно, что никакого паттерна повтора гена среди различных организмов нет. Большинство генов, располагающихся рядом, - это предполагаемые ортологи декстрансукразы. Почти все находки относятся к кладе Firmicutes. Возможно, наблюдаемый результат можно объяснить так: функции белков различны (не всех), поэтому ожидать, что они будут находиться близко друг к другу в геноме, не стоит (хотя это не какая-то аксиома, но все-таки довольно логичная закономерность).
Отнесение белка декстрансукразы из Leuconostoc citreum KM20 к терминам GO
Использовался поиск по последовательности белка инструментом AmiGO. Лучшая находка - белок Toxin B в Clostridium difficile (E-value 9.5e-19). Выравнивание хорошее, хотя и недостаточно, на мой взгляд, чтобы сказать, что это один и тот же белок. Несмотря на это, термины GO можно переносить с декстрансукразы на токсин B, как минимум потому что найденный белок обладает гликозилтрансферазной активностью, при этом обе эти бактерии (L.citreum и C.difficile) являются грамположительными.
Далее были составлены таблицы: таблица 2, показывающая описание в терминах GO лучшей находки, таблица 3, в которой приведены объяснения кодов достоверности:
Таблица 2. Термины GO, отнесенные к белку с идентификатором UniProt TOXB_PEPDI | ||||
---|---|---|---|---|
Аспект | Идентификатор GO | Название термина | Перевод названия термина | Код типа достоверности |
биологический процесс | GO:0009405 | pathogenesis | патогенез | IMP |
клеточный компонент | GO:0020002 | host cell plasma membrane | плазматическая мембрана клетки хозяина | IMP |
молекулярная функция | GO:0046527 | glucosyltransferase activity | гликозилтрансферазная активность | IDA |
Таблица 3. Описание кодов достоверности, использованных в Таблице 2. | ||
---|---|---|
Код типа достоверности | Расшифровка кода типа достоверности | Объяснение |
IMP | Inferred from Mutant Phenotype | Функция, процесс или клеточная локализация предсказаны на основании отличий между двумя различными аллелями гена (один аллель - дикий тип, второй - мутантный, отсюда и название). |
IDA | Inferred from Direct Assay | Существуют молекулярно-биологические данные, которые были получены при направленном изучении процесса, компонента или функции интересующего объекта. Другими словами есть данные, полученные при направленном изучении объекта. |
Краткое описание того, что вообще было сделано:
Сначала нужно было найти идентификатор геномного окружения, в который входит белок B1MZT6_LEUCK. Далее, использую STRING, найти белки (совокупность изоформ белка), которые входят в то же геномное окружение, что и выданный белок, при этом отображаются только те белки, для которых явно показано хоть какое-нибудь "взаимодействие" с белком, по которому ведется поиск. (Это могут быть самые разные "взаимодействия" - совместное упоминание в PubMed, близкое расположение в геноме, гомология)
После всех этих операций нужно было пробластить выданный белок инструментом AmiGO, взять лучшую находку и принять решение можно ли перенести термины GO на найденный белок. Если можно (наш вариант), то описать термины GO, а также коды достоверности (почему данный биологический аспект может быть отнесен к найденному белку). Результаты можно посмотреть в Таблице 2 и Таблице 3.
Ссылки:
1. Wikipedia.
⌘
© Emir Radkevich, 2016