Учебный сайт Аксеновой Марины

Получение информации о КОГе, к которому относится белок Elongation factor 1-alpha археи Acidilobus saccharovorans

Для работы был использован белок, выданный в первом семестре. Для начала был определен КОГ, к которому данный белок относится.

Для этого был открыт сервис CDD (Conserved Domain Database), в поле поиска была вставлена последовательность белка в FASTA-формате, затем была нажата кнопка "Submit". Далее в правом верхнем углу в поле View был выбран режим Full Results, в котором были найдены хиты, относящие белок к тому или иному КОГу.

Рис 1. Часть списка хитов для белка Elongation factor 1-alpha (YP_003816619.1).

Всего было найдено 13 КОГов, и один из них (COG0532) встретился два раза. Далее информация по каждому из них была получена из последнего релиза базы данных и представлена в Таблице 1.

Таблица 1. Информация по КОГам, к которым был отнесен белок Elongation factor 1-alpha (YP_003816619.1)
ID КОГа E-value Координаты остатков белка Название Функциональная категория
COG5256 0e+00 3-429 Translation elongation factor EF-1alpha (GTPase)
(Фактор элонгации трансляции 1-альфа)
J - Translation, ribosomal structure and biogenesis
(Трансляция, рибосомальная структура и биогенез)
COG2895 1.23e-109 4-434 Sulfate adenylyltransferase subunit 1, EFTu-like GTPase family
(Субъединица 1 аденилилтрансферазы сульфата, EFTu-подобное семейство ГТФаз)
P - Inorganic ion transport and metabolism
(Неорганический ионный транспорт и метаболизм)
COG0050 1.20e-82 4-427 Translation elongation factor EF-Tu, a GTPase
(Фактор элонгации трансляции EF-Tu, ГТФаза)
J - Translation, ribosomal structure and biogenesis
COG3276 5.03e-60 13-391 Selenocysteine-specific translation elongation factor
(Селеноцистеин-специфичный фактор элонгации трансляции)
J - Translation, ribosomal structure and biogenesis
COG5258 1.28e-47 4-427 GTPase
(ГТФаза)
R - General function prediction only
(Предсказание только общих функций)
COG5257 6.17e-31 5-330 Translation initiation factor 2, gamma subunit (eIF-2gamma; GTPase)
(Фактор инициации трансляции 2, субъединица гамма (eIF-2гамма; ГТФаза))
J - Translation, ribosomal structure and biogenesis
COG0481 5.68e-27 8-319 Translation elongation factor EF-4, membrane-bound GTPase
(Фактор элонгации трансляции EF-4, мембрано-связанная ГТФаза)
J - Translation, ribosomal structure and biogenesis
COG1217 1.83e-24 8-319 Predicted membrane GTPase involved in stress response
(Предсказанная мембранная ГТФаза, участвующая в стрессовом ответе)
T - Signal transduction mechanisms
(Механизмы трансдукции сигнала)
COG0480 9.04e-21 8-179 Translation elongation factor EF-G, a GTPase
(Фактор элонгации трансляции EF-G, ГТФаза)
J - Translation, ribosomal structure and biogenesis
COG4108 6.25e-16 11-155 Peptide chain release factor RF-3
(Фактор освобождения пептидной цепи RF-3)
J - Translation, ribosomal structure and biogenesis
COG0532 2.28e-12 10-313 Translation initiation factor IF-2, a GTPase
(Фактор инициации трансляции IF-2, ГТФаза)
J - Translation, ribosomal structure and biogenesis
COG0532 2.84e-06 10-313 Translation initiation factor IF-2, a GTPase J - Translation, ribosomal structure and biogenesis
COG1160 4.07e-04 9-200 Predicted GTPases
(Предсказанные ГТФазы)
R - General function prediction only
COG1100 9.92e-03 47-192 GTPase SAR1 family domain
(Домен семейства SAR1 ГТФаз)
R - General function prediction only

Визуализация геномного окружения

В этом задании нужно было получить изображение геномного окружения для обнаруженного КОГа с помощью STRING и/или COGNAT. Для работы был выбран КОГ c лучшим e-value - COG5256, изображение было построено в STRING.

Для построения изображения (представлено на Рис. 2) на главной странице STRING после нажатия кнопки "Search" слева было выбрано Protein families ("COGs"), после чего в поле ввода был скопирован ID выбранного КОГа.

Рис 2. Геномное окружение COG5256, построенное программой STRING.

Каждый узел графа на изображении отражает совокупность всех его изоформ, транскрибирующихся с одного и того же локуса гена, а ребра графа показывают связи "белок-белок", где белки могут быть связаны друг с другом не только физически, но и функционально. На Рис. 3 представлено описание видов ребер и узлов. Как видно из описания, для белков данного КОГа неизвестны их 3D-структуры. Цвета окраски ребер тоже несут смысловую нагрузку:

  • Голубая окраска - взаимосвязи, информация о которых получена из курируемых баз данных
  • Фиолетовая окраска - экспериментально доказанные взаимосвязи
  • Зеленая окраска - соседство генов в геноме
  • Красная окраска - слияние генов
  • Синяя окраска - совместная встречаемость генов
  • Салатовая окраска - совместное упоминание белков в статьях PubMed
  • Черная окраска - коэкспрессия
  • Голубо-фиолетовая окраска - белковая гомология

В данном графе встречаются все возможные цвета ребер, кроме красного. Исходя из цветовой карты ребер можно сказать по крайней мере то, что почти все взаимосвязи доказаны экспериментально, большинство белков совместно экспрессируются и упоминаются в статьях.

Рис 3. Описание ребер и узлов графа, построенного программой STRING.

В выдаче программы также находилась таблица, отражающая взаимосвязи исходного белка с белками на графе и score этих взаимосвязей (таблица представлена на Рис. 4). Данная таблица показывает взаимосвязи между белками понятнее, чем граф. Так можно видеть, что в действительности все взаимосвязи доказаны экспериментально, для почти всех (8/10) взаимосвязей есть свидетельства из различных баз данных, а соседства генов в геноме практически нет. По таблице видно, что вывод программы о взаимосвязях основывался в большей степени на экспериментальных свидительствах, совместных упоминаниях белков (или их генов) в научных статьях, совместной экспрессии и информации из баз данных.

Рис 4. Таблица взаимосвязей белка Elongation factor 1-alpha (YP_003816619.1) с белками графа.

В разделе Evidence -> Neighbourhood представлено изображение геномного окружения, показанное на Рис. 5.

Рис 5. Геномное окружение белка Elongation factor 1-alpha (YP_003816619.1).

Уже из таблицы (Рис. 4) было видно, что ни о каком соседстве генов речи идти не может, и карта геномного окружения подтвердила это еще раз. Из той же таблицы видно, что совместная встречаемость у КОГов также очень низка. Из всего вышеперечисленного можно сделать вывод, что в данном случае консервативного окружения нет.

Отнесение белка Elongation factor 1-alpha археи Acidilobus saccharovorans к терминам GO.

Целью задания было описать, какие термины GO относятся к белку, выданному в первом семестре (Elongation factor 1-alpha).
С помощью сервера AmiGO поиском BLAST был обнаружен белок, наиболее похожий на данный. Поиск велся по последовательности белка (ссылка на информацию о белке). Это оказался тот же белок Elongation factor 1-alpha, только из организма Dictyostelium discoideum. E-value для этой находки было равно 1.8e-117.

Чтобы узнать, какие термины GO относятся к найденному белку, была открыта страничка белка. Результат представлен в Таблице 2.

Таблица 2. Термины GO, отнесенные к белку с идентификатором Uniprot P0CT32 (EF1A2_DICDI)
Аспект Идентификатор GO Название термина Перевод названия термина Код типа достоверности
biological process GO:0051017 actin filament bundle assembly связывание в сборку актиновых нитей IDA
biological process GO:0044351 macropinocytosis макропиноцитоз RCA
biological process GO:0000302 response to reactive oxygen species реакция на активные формы кислорода IEP
biological process GO:0006412 translation трансляция IEA, IDA
biological process GO:0006414 translational elongation элонгация трансляции IEA, IDA
cellular component GO:0005938 cell cortex клетки коры IDA
cellular component GO:0005737 cytoplasm цитоплазма IEA
cellular component GO:0005615 extracellular space внеклеточное пространство IDA
cellular component GO:0030027 lamellipodium ламеллиподий IDA
cellular component GO:0045335 phagocytic vesicle фагоцитарный пузырек IDA
molecular function GO:0003779 actin binding связывание актина IEA
molecular function GO:0051015 actin binding filament связывание актиновых нитей IDA
molecular function GO:0005525 GTP binding связывание GTP IEA
molecular function GO:0003924 GTPase activity GTP-азная активность IBA, IEA
molecular function GO:0000166 nucleotid binding связывание нуклеотидов IEA
molecular function GO:0003746 translation elongation factor activity активность фактора элонгации трансляции IEA, IDA

В таблице содержится информация о свойствах данного белка (биологический процесс, в который данный белок вовлечен; клеточные структуры, в которых белок локализован; его функции) и их атрибуты GO - идентификаторы и тип кода достоверности. Код достоверности - это указание на то, каким путём была получена информация о данном белке и насколько можно ей доверять. Для каждого кода достоверности, встречающегося в Таблице 2, была представлена расшифровка (Таблица 3).

Таблица 3. Описание кодов достоверности, встретившихся в Таблице 2
Тип кода
достоверности
Расшифровка кода
достоверности
Объяснение
IBA Inferred from
Biological aspect of Ancestor
Присваевается на основании данных, полученных с помощью компьютерной обработки, построения филогенетической модели.
IDA Inferred from
Direct Assay
Показывает, что было проведено непосредственное исследование функции, процесса или компонента, определенного в термине GO. Примерами таких исследований могут быть: изучение локализации белка в клетке путем иммунофлюоресценции или фракционирования клеточных компонентов, изучение комплексов методом иммунопреципитации, изучение каталитических свойств фермента.
IEA Inferred from
Electronic Annotation
Применяется в том случае, когда данные были получены путем автоматического непроверяемого и некурируемого переноса из баз данных. Такие данные могут основываться на сходстве последовательности или струкутры с данными для известных белков.
IEP Inferred from
Expression Pattern
Присваивается в случае, когда аннотация получена на основе экспериментальных данных о времени и месте экспресии генов; при выяснении, вовлечен ли ген, еще не проанализированный подобным образом, в конкретный процесс. Обычно используется в связке с высокоуровневыми терминами GO.
RCA Inferred from
Reviewed Computational Analysis
Данные получены из компьютерного анализа результатов широкомасштабных экспериментов или при использовании разных типов данных при анализе. Такими экспериментальными данными могут быть белок-белковые взаимодействия (дрожжевая двугибридная система, определение белковых комплексов методом масс-спектроскопии), данные, основанные на секвенировании продукта гена, предсказания структуры белка по последовательности, предсказания свойств с использованием математических моделей.

Примерно в половине случаев, как видно из таблицы, термины были получены автоматически, поэтому не могут заслуживать особого доверия. Однако, почти все остальные термины были получены по результатам непосредственного исследования аспекта онтологии. Но только среди аспектов, относящихся к локализации белка (cellular component), почти все термины (кроме одного) имели код достоверности IDA.