Геномное окружение. База данных GO

I

В первом семестре мне был выдан белок с идентефикатором YP_003064950.1 (сейчас он называется WP_015452621.1 — это белок длиной 294 аминокислотных остатка). Результат выдачи CDD NCBI был следующим (см. картинку).

Для анализируемого белка были найдены всего два COG'а. Это идентичные по функциям COG0803 (e-value — 1.26 * 10-87, расположение: 16..293) и COG4531 (e-value — 3.89 * 10-16, расположение: 1..240) — части ABC-транспортной системы, связывающиеся с ионами Zn2+. Даже название этих двух COG'ов совпадает: ZnuA. Оба этих COG'а относятся к функциональной категории P (Inorganic ion transport and metabolism), то есть участвуют в транспорте и метаболизме неорганических ионов (что логично вытекает из их функции).

Для дальнейшей работы был выбран COG с наиболее низким e-value, а именно COG0803.

II

При работе с исследуемым кластером ортологичных генов был использован сервис STRING. Входным параметром служил COG ID = 'COG0803'. Настройки же были оставлены по умолчанию: отображение только COG'ов, взаимодействующих с данным на первом уровне (first-shell interactors); минимальный порог скора взаимодействий: 400. Результат поиска — картинка ниже (легенда под картинкой).

Вершинами графа являются в данном случае КОГи, а ребра графа отражают наличие свидетельств о существовании связи между их белками. Разными цветами обозначаются разные типы свидетельств: достоверно известные (из проверенных баз данных, экспериментально подтверждённые); предсказанные (соседство генов, сшивки генов, совместная встречаемость генов). Также связи могут быть обнаружены при коэкспрессии, проверке гомологии белков и анализе частот совместных упоминаний белков в статьях (текст-майнинг).

Значение цветовой окраски вершин отсутствует в данном случае, поскольку не производился поиск взаимодействий с КОГами на втором уровне (вершины, представляющие эти КОГи были бы все окрашены белым).

Было рассмотрено также и геномное окружение рассматриваемого КОГа. Оно (вместе с легендой) представлено на рисунке ниже.

Наиболее консервативным элементом в окружении является COG1121, белки которого тоже являются частью ABC-транспортной системы и участвуют в транспорте Mn и Zn. Связь с этим белком представляется логичной: функционально исследуемый и рассматриваемый КОГи очень похожи (вплоть до транспорта именно катионов Zn). Аналогичное и с COG1108, который функционально точно такой же, как и COG1121. Стоит отметить, что порой (достаточно часто) присутствует также и COG1321, который иногда даже «сшит» с COG1108. Это логично: ведь COG1321 — это Mn-зависимый транскрипционный фактор, и он необходим для нормальной регуляции транспорта ионов марганца. В остальном геномное окружение, безусловно, тоже поддаётся некоторым паттернам, но в меньшей степени.

III

В этой чести будет произведено отнесение белка железо-связывающего белка из Candidatus Liberibacter asiaticus к терминам GO. Для этого использовался инструмент AmiGO BLAST с исследуемой аминокислотной последовательностью. Результаты выдачи оказались не самыми приятными: так, лучшее совпадение имеет e-value примерно 10-30, поэтому был взят другой белок — Q8XNZ3. Лучшая находка в результатах — N-ацетилманнозамин-6-фосфат 2-эпимераза из Listeria monocytogenes serotype 4b str. F2365 с e-value 6.5 * 10-51, что позволяет экстраполировать термины GO (белок Q71VW2).

Оказалось, что выбранный белок ассоциирован всего с двумя терминами. Они описаны в таблице ниже.

Аспект Иденткфикатор GO Название термина Перевод названия Код типа достоверности
Биологический процесс (Biological process) GO:0006040 Amino sugar metabolic process Метаболизм аминосахаров ISS
Молекулярная функция (Molecular function) GO:0016857 Racemase and epimerase activity, acting on carbohydrates and derivatives Рацемазная активность по отношению к углеводам и их производным ISS

Код достоверности ISS (Inferred from Sequence or Structural Similarity (основан на сходстве последовательностей или структурном сходстве)) используется, когда аннотация проводилась после ручного анализа последовательности. В случае же с автоматическим анализом код достоверности был бы IEA. ISS также можно использовать при наличии структурного сходства с экспериментально описанными продуктами генов, установленного с помощью кристаллографии, ЯМР или вычислительных предсказаний. Однако на практике код ISS крайне редко применяют для аннотации, основанной только на информации о структуре.