УЧЕБНЫЙ САЙТ
Буяновой Мишель
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ
И БИОИНФОРМАТИКИ МГУ им. М.В. ЛОМОНОСОВА
Семестр IV Семестр III Семестр II Cеместр I

Геномное окружение. База данных GO

Задания данного практикума выполнены на примере белка аминотрансферазы класса V из археи Archaeoglobus fulgidus, работа с которым проводилась также в рамках выполнения практикума первого семестра.

Получение информации о КОГе

При помощи сервиса CDD (Conserved Domain Database) был получен список находок, некоторые из которых относили белок к определенному КОГу. Такие хиты были отобраны, и для каждого из соответствующих КОГов было получено его название и фунциональная категория, к которой он принадлежит. Это проводилось при использовании последнего релиза базы данных по КОГам. Вся полученная информация приведена в Таблице 1.

Таблица 1. Характеристики КОГов из хитов поиска CDD


IDE-valueИнтервалНазваниеФункциональная
категория
COG11040e+001-381 Cysteine sulfinate desulfinase/cysteine desulfurase or related enzyme

(цистеин-сульфат десульфиназа/цистеин-десульфураза или связанный фермент)
E — Amino acid transport and metabolism
траснпорт и метаболизм аминокислот

COG05204.23e-661-366 Selenocysteine lyase/Cysteine desulfurase

(селеноцистеин-лиаза/цистеин-десульфураза)
E — Amino acid transport and metabolism
траснпорт и метаболизм аминокислот

COG00761.03e-1541-234 Glutamate or tyrosine decarboxylase or a related PLP-dependent protein

(глутамат- или тирозин-декарбоксилаза или связанный PLP-зависимый белок*)
E — Amino acid transport and metabolism
траснпорт и метаболизм аминокислот

COG00751.90e-1211-216 Archaeal aspartate aminotransferase or a related aminotransferase,
includes purine catabolism protein PucG

(аспартат-аминотрансфераза архей или связанная аминотрансфераза, включающая белок катаболизма пуринов PucG)
E — Amino acid transport and metabolism
траснпорт и метаболизм аминокислот

F — Nucleotide transport and metabolism
траснпорт и метаболизм нуклеотидов

*PLP — пиридоксальфосфат, активная форма витамина B6. Обычно выступает в роли кофермента, связывает аминогруппу, стабилизирует карбанионные интермедиаты[1].

Визуализация геномного окружения

В качестве КОГа из четырёх обнаруженных был выбран один — COG1104, имеющий наилучшее значение e-value (0e+00).

На Рис. 1 приведено предсказание функциональных КОГов-партнёров для КОГа COG1104 в виде графа, полученное при работе с сервисом STRING[2].

Входным параметром служил COG ID = 'COG1104'. Настройки же были оставлены по умолчанию: отображение только КОГов, взаимодействующих с данным на первом уровне (first-shell interactors); минимальный порог скора взаимодействий: 400.

Рис. 1. Граф STRING для COG1104


Вершинами графа являются в данном случае КОГи, а ребра графа отражают наличие свидетельств о существовании связи между их белками. Разными цветами обозначаются разные типы свидетельств: достоверно известные (из проверенных баз данных, экспериментально подтверждённые); предсказанные (соседство генов, сшивки генов, совместная встречаемость генов). Также связи могут быть обнаружены при коэкспрессии, проверке гомологии белков и анализе частот совместных упоминаний белков в статьях (текст-майнинг).

Значение цветовой окраски вершин отсутствует в данном случае, поскольку не производился поиск взаимодействий с КОГами на втором уровне (вершины, представляющие эти КОГи были бы все окрашены белым).

Также рассматривалось и геномное окружение КОГа, приведенное на Рис. 3, цветовые обозначения которого приведены на Рис. 2

Рис. 3. Обозначения КОГов и сила свидетельств связанности

Рис. 2. Геномное окружение для COG1104

Наиболее консервативным элементом окружения является COG0822, белки которого участвуют в сборке FeS-кластеров. Функциональная связь с этим КОГом объясняется тем фактом, что при сборке кластера источником S является цистеин (в подавляющем большинстве случаев[4]), сера с которого через персульфидный интермедиат переносится именно цистеин-десульфуразами (которые и составляют исследуемый COG1104).

Аналогичное наблюдается и для КОГов COG0316 и COG1959.

COG0316 имеет название 'Неописанный консервативный белок', но рассмотрение конкретных примеров в выдаче STRING позволяет с уверенностью говорить, что белки и этого КОГа вовлечены в процесс сборки железносерных комплексов. Белки же из COG1959 являются специальными транскрипционными факторами, контролирующими производство FeS-кластеров в клетке.

Таким образом, наиболее консервативные КОГи из окружения действительно связаны между собой функционально, что и обусловливает их соседство в геномах.

Стоит отметить, что существует всё же и некая вариабельность в этой консервативности. У части таксонов пропадает связь с COG1959. Происходит это гораздо чаще, нежели потеря связи с COG0822. Также для последнего КОГа наблюдается явление, при котором они меняются местами с COG1104. Так, например, происходит в порядке Spirochaetales, классе Elusimicrobia. Подобной перестройки в принципе не наблюдается в случае с COG1959, что, по-видимому, связано с исключительной важностью их взаимного расположения (фактор транскрипции идёт первым). Отметим также, что у альфа-протеобактерий произошел фьюжн этого КОГа с исследуемым.

Также интересной особенностью является наличие COG0633 преимущественно только у протеобактерий. Этот КОГ включает в себя ферредоксины — белки, выполняющие роль подвижных переносчиков электронов и содержащие железносерные кластеры. (Функция переноса реализуется при изменении степени окисления атомов Fe). И это является еще одним подтверждением биологической функционально осмысленной связи в соседствующих в геноме белках.

Отнесение аминотрансферазы класса V из археи Archaeoglobus fulgidus к терминам GO

Инструмент AmiGO BLAST[3] использовался в этом задании для нахождения белка из базы данных GO, соответствующего исследуемому.

Лучшая находка — цистеин-десульфураза Carboxydothermus hydrogenoformans Z-2901; e-value = 1.6e-104. Этот белок не является тем же самым, но параметры выравнивания и, как следствие, мера их сходства, позволяют допустить использование этого белка взамен моего.

Выбранный белок: Q3AA22 (Q3AA22_CARHZ). Для него рассматривались отнесенные понятия из БД GO (вкладка term associations), которых нашлось три. Информация о них представлена в Таблице 1.

Таблица 1. Термины GO, отнесенные к белку с UniprotID Q3AA22 (Q3AA22_CARHZ)


Аспект Идентификатор
GO
Название термина Перевод названия термина Код типа
достоверности
1 биологический процесс GO:0016226 iron-sulfur cluster assembly сборка железносерных кластеров ISS
2 биологический процесс GO:0000096 sulfur amino acid metabolic process метаболизм серосодержащих аминокислот ISS
3 молекулярная функция GO:0004123 cystathionine gamma-lyase activity цистатионин гамма-лиазная активность ISS

Видно, что все термины, которые относились к рассматриваемому белку, имеют код достоверности ISS — Inferred from Sequence or Structural Similarity.

Этот код (или его одна из трех его подкатегорий) присваивается в тех случаях, когда на основе анализа последовательностей проводилась аннотация, после чего проверка результатов производилась вручную. (Если же такой проверки не было, то верным кодом будет IEA). ISS код используют, если применялось несколько инструментов или методов, основанных на анализе последовательностей. (Если же метод был один, то используют одну из подкатегорий: ISA (alignment), ISO (orthology), ISM (modelling)).

ISS может также использоваться, если было обнаружено структурное сходство с экспериментально описаннымими структурами (ЯМР, X-ray, алгоритмическое предсказание).


[1] Wiki
[2] STRING
[3] AmiGO BLAST
[4] JBC: 'Cysteine is not the sulfur source for iron-sulfur cluster and methionine biosynthesis in the methanogenic archaeon Methanococcus maripaludis', 2010