Геномное окружение. База данных GO



1. Получение информации о КОГе



Для работы использовался белок, выданный в I семестре. Это карбогидрат-киназа из генома археи Thermococcus kodakarensis KOD1 Краткая информация о нем доступна по ссылке. Последовательность этого белка в fasta-формате была вставлена в поле поиска сервиса CDD. Затем для результатов был выбран режим View>Full Results. Всего было найдено два КОГа, информация о которых приведена в таблице 1. Общая длина белка — 273 а.о.

Таблица 1. Краткая информация о найденных КОГах
COG ID Название e-value Остатки белка, соответствующие КОГу Функциональная категория
COG0524 Sugar or nucleoside kinase, ribokinase family
(Карбогидрат- или нуклеозид-киназа, семейство рибокиназ)
1.76e-05 2-247 Carbohydrate transport and metabolism
(транспорт и метаболизм сахаров)
COG1105 Fructose-1-phosphate kinase or kinase (PfkB)
(фруктоза-1-фосфат-киназа или киназа)
3.77e-05 181-273 Carbohydrate transport and metabolism
(транспорт и метаболизм сахаров)


2. Визуализация геномного окружения



Для КОГа COG0524 с помощью сервиса STRING было получено геномное окружение, представленное на рис. 1. На рис. 2 представлены все найденные сервисом белки (для поиска были выбраны параметры по умолчанию).

Рис. 1. Геномное окружение КОГа COG0524
Рис. 2. Найденные КОГи и их взаимодействия
Рис. 3. Расшифровка взаимодействий


На рис. 1 представлен граф, в котором узлы (изоформы белка, транскрибирующиеся с одного и того же гена) соединены различными отношениями (см. рис. 3). Красный узел представляет собой наш белок. Как видно по графу, для трех находок предсказана 3D структура для (крупные узлы со структурой внутри). В соответствии с цветами можно выделить следующие типы отношений: В нашем случае большинство узлов соединены зелеными или синими ребрами. При этом ни экспериментально доказаных, ни аннотированных в базах данных взаимосвязей нет. Более того, часть находок являются плохо изученными белками, а остальные явно выполняют другие функции (см. рис. 2). На рис. 4 представлено соседство генов. Видно, что никаких определенных паттернов нет. На рис. 5 показана совместная встречаемость. Видно, что здесь тоже нет какой-то закономерности. Таким образом, я бы сделала вывод, что в данном случае консервативного окружения нет.

Рис. 4. Соседство генов
Рис. 5. Совместная встречаемость генов



Отнесение белка с UniProt ID UCRI_RAT из крысы к терминам GO



Так как для моего белка БД GO не нашлось белка, сходного с моим настолько, чтобы можно было переносить термины GO с одного на другой, мне был выдан другой белок с UniProt ID UCRI_RAT из Rattus norvegicus (Серая крыса). Это субьединица Риске из комплекса цитохромов bc1 (или комплекса III), располагающегося во внутренней мембране митохондрий1.

С помощью инструмента AmiGO поиском BLAST в БД GO я попыталась найти белок, наиболее похожий на упомянутый выше. Оказалось, что сам этот белок есть в БД GO, так что для дальнейшей работы был взят сам белок Риске из крысы. В таблице 1 описаны все GO, отнесенные к исследуемому белку (Term Associations).
Таблица 2. Термины GO, отнесенные к белку с идентификатором Uniprot P20788 (UCRI_RAT)
Аспект Идентификатор GO Название термина Перевод названия термина Код типа достоверности
биологический процесс GO:1902600 hydrogen ion transmembrane transport трансмембранный транспорт протонов IEA
биологический процесс GO:0055114 oxidation-reduction process окислительно-восстановительный процесс IEA
биологический процесс GO:0046677 response to antibiotic реакция на антибиотик IEP
биологический процесс GO:0042493 response to drug реакция на наркотик IEP
биологический процесс GO:0009725 response to hormone реакция на гормон IEP
клеточный компонент GO:0005743 mitochondrial inner membrane внутренняя митохондриальная мембрана ISO
клеточный компонент GO:0031966 mitochondrial membrane митохондриальная мембрана IDA
клеточный компонент GO:0005750 mitochondrial respiratory chain complex III комплекс III митохондриальной дыхательной цепи IDA
клеточный компонент GO:0005739 mitochondrion митохондрия ISO
клеточный компонент GO:0043209 myelin sheath миелиновая оболочка IEA
клеточный компонент GO:0045275 respiratory chain complex III комплекс III дыхательной цепи TAS
молекулярная функция GO:0051537 2 iron, 2 sulfur cluster binding связывание кластера [2Fe-2S] IEA
молекулярная функция GO:0046872 metal ion binding связывание ионов металла IEA
молекулярная функция GO:0032403 protein complex binding связывание белкового комплекса IDA
молекулярная функция GO:0008121 ubiquinol-cytochrome-c reductase убихинол-цитохром-с редуктаза TAS


Как видно из таблицы 1, всего с белком соотносится 15 GO с разными кодами типа достоверности: 5 IEA, 3 IEP, 2 ISO, 3 IDA и 2 TAS. Более подробное описание этих кодов приведено в таблице 3.

Таблица 3. Описание кодов достоверности2, использованных в Таблице 1
Код типа достоверности Расшифровка кода типа достоверности Объяснение Достоверность
IEA Inferred from Electronic Annotation (аннотация получена путем электронной обработки) Используется для аннотаций, полученных автоматически из из существующей базы данных и не проверяемых куратором. В частности, используется для "внутреннего" поиска, когда публикация результата не предполагается. Низкая
IEP Inferred from Expression Pattern (аннотация основана на паттерне экспрессии) Используется для аннотаций, основанных на сравнении паттерна экспрессии неописанного гена с паттерном экспрессии гена, для которого уже известна его роль в том или ином процессе. При этом аннотация может относиться как к самому гену, так и к РНК или белку. Этот тип достоверности рекомендуется использовать только для биологических процессов. Высокая
ISO Inferred from Sequence Orthology (аннотация основана на ортологии последовательности) Присваевается, если аннотация основывается на анализе ортологов продуктов гена, причем аннотация должна быть подтверждена экспериментально. Является одной из подкатегорий кода ISS. Средняя
IDA Inferred from Direct Assay (аннотация основана на прямом анализе) Используется, когда для определения аннотации GO проводился специальный анализ. Присваевается, когда анализ проводился с целью изучения естественной функции продукта (иначе используется код IMP). Высокая
TAS Traceable Author Statement (аннотация основана на отчете автора, который можно отследить) Любое заявление в статье, в которой доказательства (результаты эксперимента, анализ последовательностей и т. д.) не приведены, но упоминаются и поэтому их можно отследить (прочитать в другом источнике). Обычно это связано со статьями-обзорами. Высокая

Если теперь проанализировать данные таблицы 1 с учетом характеристик кодов, приведенных в таблице 2, можно сказать, что судить о функциях продукта того или иного гена следует в первую очередь по GO с достоверными кодами (в нашем случае это IEP, IDA, TAS), внимательно нужно анализировать функции, описанные GO со средне достоверными кодами (в нашем случае это ISO) и только на основе дополнительной информации принимать или отвергать аннотацию с малодостоверными кодами (в нашем случае это IEA).

Ссылки:

[1] Cytochrome b-c1 complex subunit Rieske, mitochondrial // UniProt. [URL].
[2] Guide to GO Evidence Codes // the Gene Ontology. [URL].