Геномное окружение. База данных GO

Получение информации о КОГе белка

В первом семестре мне был выдан белок YP_694641.1. К настоящему моменту он переименован и имеет идентификатор WP_003452659.1. Белок является N-ацетилманозамин-6-фосфат 2-эпимеразой из бактерии Clostridium perfringens. Всего в нем 221 аминокислотный остаток.

С помощью сервиса CDD (Conserved Domain Database) для данного белка был получен список хитов (Рис. 1), из которого были выбраны те, которые относят белок к тому или иному КОГу.

Рис. 1. Список хитов для белка WP_003452659.1

Таких хитов, соответственно и КОГов, оказалось несколько (7). Информация по каждому из КОГов была получена из последнего релиза базы данных и представлена в Таблице 1.

ID	E-value	Координаты	Название	Функциональная категория
COG3010	3.93e-112	5-221	Putative N-acetylmannosamine-6-phosphate epimerase (Предполагаемая N-ацетилманозамин-6-фосфат 2-эпимераза)	G - Carbohydrate transport and metabolism (Транспорт и метаболизм углеводов)
COG0107	1.32e-03	91-206	Imidazole glycerol phosphate synthase subunit HisF (Субъединица имидазол-глицерол-фосфат-синтазы HisF)	E - Amino acid transport and metabolism (Транспорт и метаболизм аминокислот)
COG0352	1.50e-03	115-221	Thiamine monophosphate synthase (Тиамин-монофосфат-синтаза)	H - Coenzyme transport and metabolism (Транспорт и метаболизм коферментов)
COG0106	1.78e-03	161-206	Phosphoribosylformimino-5-aminoimidazole carboxamide ribonucleotide (ProFAR) isomerase (Фосфорибозилформино-5-аминоимидазол-карбоксамид-рибонуклеотид-изомераза)	E - Amino acid transport and metabolism (Транспорт и метаболизм аминокислот)
COG0269	3.93e-03	122-221	3-keto-L-gulonate-6-phosphate decarboxylase (3-кето-L-гулонат-6-фосфат-декарбоксилаза)	G - Carbohydrate transport and metabolism (Транспорт и метаболизм углеводов)
COG1954	4.36e-03	121-197	Glycerol-3-phosphate responsive antiterminator (mRNA-binding) (Глицерол-3-фосфат-чувствительный антитерминатор (мРНК-связывающий))	K - Transcription (Транскрипция)
COG2070	3.26e-07	106-203	NAD(P)H-dependent flavin oxidoreductase YrpB, nitropropane dioxygenase family (НАД(Ф)H-зависимая флавин-оксидоредуктаза YrpB, семейство нитропропановых диоксигеназ)	R - General function prediction only (Предсказание только общей функции)
Таблица 1. КОГи для белка WP_003452659.1

Визуализация геномного окружения

Далее было необходимо получить изображение геномного окружения КОГа c помощью сервисов STRING и COGNAT.
Из множества обнаруженных КОГов я выбрала один с наилучшим E-value, а именно COG3010.

Для начала было получено изображение с помощью STRING (Рис. 2.). Поиск проводился по последовательности нашего белка в пределах организма Clostridium perfringens.

Параметры программы были взяты по умолчанию: максимальное количество взаимодействующих по первой линии белков (first shell interactors) - 10, минимальный требуемый score взаимодействия - 0.400.

Рис. 2. Геномное окружение COG3010, программа STRING

На данном рисунке каждый узел графа символизирует белок (а точнее - совокупность всех его изоформ, транскрибирующихся с одного и того же локуса гена). Ребра графа символизируют белок-белковые взаимосвязи (это не обязательно означает, что белки физически связывают друг друга; они могут быть связаны и функционально, например совместно выполнять какую-либо функцию). Белки, для которых известна 3D-структура отображены большимим узлами с соответсвующим изображением внутри, остальные белки отображены узлами меньшего размера.

Рис. 3. Значения цветов ребер

Цвет ребер также несет смысловую значимость (Рис. 3. ) Ребра, окрашенные фиолетовым, отражают экспериментально доказанные взаимосвязи, голубым - взаимосвязи, информация о которых получена из курируемых баз данных. Зеленые ребра отражают соседство в геноме, синие - совместную встречаемость, красные - слияние генов. Салатовые ребра означают совместное упоминание данных белков в Pub-Med Abstract, черные - коэкспрессию, а светло-синие - гомологию.
На нашем графе наибольшее число ребер окрашены в зеленый, салатовый или синий (взаимосвязи, которым нельзя верить на 100%). Однако есть и достаточное количество (5) достоверных взаимосвязей, установленных экспериментально.

На рисунке 4 представлена таблица, отражающая все взаимосвязи нашего белка с остальными белками на графе, а также score данных взаимосвязей.

Рис. 4. Взаимосвязи белка WP_003452659.1

В выданной группе белков наблюдается консервативное геномное окружение. Каждый из белков связан с любым из остальных зеленым ребром, отражающим генетическое соседство (gene neighborhood). Наблюдаются очевидные повторяющиеся паттерны расположения генов в разных группах организмов (Рис. 5.).

Рис. 4. Взаимосвязи белка WP_003452659.1

ID	Описание
COG3010	Переводит N-ацетилманозамин-6-фосфат в N-ацетилглюкозамин-6-фосфат
COG0329	Катализирует конденсацию (S)-аспартат-бета- семиальдегид (S)-ASA и пирувата в 4-гидроксил- тетрагидродипиколинат (N-ацетилнейрамиат лиаза)
COG0591	симпортер
COG2731	белок семейства YhcH YjgK YiaL
COG1940	белок семейства ROK
Таблица 2. Описания COGов, входящих в консервативный паттерн

Наиболее длинный паттерн из 5 соседствующих белков (на рисунке выделен голубой рамкой) образован COGами COG3010(красный), COG0329(оранжевый), COG0591(розовый), COG2731 (синий) и COG1940 (бело-бирюзовый). Встречается этот паттерн в пределах клады Firmicutes.
Описания COGов паттерна представлены в таблице 2.
Как видно из описаний, как минимум первые два COGа связаны функционально.

Кроме описанного паттерна встречаются и более короткие (выделены одинаковыми цветами на рисунке 4), например, паттерн включающий уже описанный COG3010(красный) и COG1263 (бело-зеленый), выполняющий функцию фосфотрансферазной системы (салатовая рамка), и другие.

В пределах паттернов наблюдается некоторая вариабельность. Так, для уже описанного самого длинного паттерна в кладе Streptococcaceae наблюдается дополнительная вставка двух участков, включающих COG4409 (функция - нейраминидаза) и COG0673 (функция - оксидоредуктаза).
В паттернах, выделенных фиолетовыми и салатовыми рамками, наблюдаются перемены COGов местами.

Отнесение белка N-ацетилманозамин-6-фосфат 2-эпимеразs из бактерии Clostridium perfringens к терминам GO

С помощью инструмента AmiGO поиком BLAST в базе данных GO был обнаружен белок, наиболее похожий на WP_003452659.1. (UniProtKB - Q8XNZ3 (NANE_CLOPE)). Им оказался белок Q71VW2 (NANE_LISMF) - предполагаемая N-ацетилманозамин-6-фосфат 2-эпимераза из организма Listeria monocytogenes serotype 4b. Изначально выданный мне белок выполняет ту же функцию, но принадлежит другому организму - Clostridium perfringens. Тем не менее эти бактерии достаточно близки и обе относятся к кладе Firmicutes.

Рис. 5. Выравнивание белков NANE_CLOPE и NANE_LISMF

На рисунке 5 можно увидеть выравнивание нашего белка и лучшего белка-находки. Длина выравнивания - 225 (длина нашего белка - 221, белка-находки - 231). E-value составляет 6.5e-51.
Очевидно, что найденный в БД GO белок не является тем же самым, что и исходный.
Тем не менее степень сходства у этих белков хоть и не высокая, но достаточная, о чем можно судить по неплохому E-value и удовлетворительному проценту совпадений.

На странице белка Q71VW2 (NANE_LISMF) по ссылке N term associations была получена информация о терминах GO, отнесенных к данному белку. Их оказалось всего 2. Найденные термины представлены в таблице 3.

Аспект	Идентификатор GO	Название термина	Перевод названия	Код типа достоверности
Биологический процесс (Biological process)	GO:0006040	Amino sugar metabolic process	Метаболизм аминосахаров	ISS
Молекулярная функция (Molecular function)	GO:0016857	Racemase and epimerase activity, acting on carbohydrates and derivatives	Рацемазная активность по отношению к углеводам и их производным	ISS
Таблица 3. Термины GO, отнесенные к белку с идентификатором Uniprot Q71VW2 (NANE_LISMF)

Объяснения встречающихся в таблице 3 кодов достоверности представленs в таблице 4.

Код типа достоверности	Расшифровка кода	Объяснение
ISS	Inferred from Sequence or Structural Similarity (основан на сходстве последовательностей или структурном сходстве)	Используется, когда аннотация проводилась на основании анализа последовательностей, причем данный анализ был проверен вручную. В случае, когда имел место только автоматический анализ, корректным является использование кода IEA. Общий код ISS используется при применение комбинации анализирующих последовательности инструментов и методов. Если был применен только один метод/инструмент используют одну из подкатегорий ISS: ISA (Inferred from Sequence Alignment) - заключение на основании парного или множественного выравнивания, ISO (Inferred from Sequence Orthology) - заключение на основании оценки ортологичности продуктов генов из разных организмов, ISM (Inferred from Sequence Model) - заключение на основании какого-либо метода моделирования (например Hidden Markov Models). ISS также можно использовать при наличии структурного сходства с экспериментально описанными продуктами генов, установленного с помощью кристаллографии, ЯМР или вычислительных предсказаний. Однако на практике код ISS крайне редко применяют для аннотации, основанной только на информации о структуре.
Таблица 4. Описание кодов достоверности

Учебный сайт Карпухиной Анны

Геномное окружение. База данных GO

Получение информации о КОГе белка

Визуализация геномного окружения

Отнесение белка N-ацетилманозамин-6-фосфат 2-эпимеразs из бактерии Clostridium perfringens к терминам GO