Геномное окружение. База данных GO

Получение информации о КОГе

Мой белок - YP_526380.1 бактерии Saccharophagus degradans. Поиск по его последовательности в базе CDD дал следующие результаты:

Как можно видеть, мой белок с высокой достоверностью (E-value 5.35e-98) относится к COG3459. В этот КОГ попадают остатки с 76 по 786 (при общей длине белка 788 аминокислотных остатка). COG3459 - Cellobiose phosphorylase [Carbohydrate transport and metabolism] (фосфорилаза целлобиозы; целлобиоза - это дисахарид). Функциональная группа - метаболизм и транспорт углеводов.

Визуализация геномного окружения

Далее с помощью программы COGNAT (параметры по умолчанию: neighborhood size = 9, occurrence threshold = 20 %) было визуализировано геномное окружение для данного COG'a, которое представлено ниже:

Цифрами обозначены:

1 - Hypothetical protein (Q21L46)

2 - Regulatory protein, TetR (Q21L47)

3 - Hypothetical protein (Q21L48)

4 - Cellobiose phosphorylase (Q21L49) - наш рабочий белок, поэтому он и выделен синим цветом.

далее идут гипотетические белки и самым последним идёт Regulatory protein, TetR (Q21L53.)

Геномное окружение не является консервативным, как видно на представленном ниже рисунке:

Отнесение белка YP_526380.1 из Saccharophagus degradans к терминам GO

С помощью BLAST в базе GO был выполнен поиск белка, похожего на мой. Лучшие результаты представлены ниже:

Как ни странно, находка с лучшим значением p-value относится к растениям. Естественно, это другой белок. Мне кажется, что целесообразней было бы рассматривать находку VC_0612: это тоже бактериальный белок, и функция у него близкая к моему белку.

Таблица 1. Термины GO, отнесённые к белку с идентификатором YP_526380.1

АспектИдентификатор GOПеревод названия терминаКод типа достоверности
carbohydrate catabolicGO:0016052Катаболизм углеводовISS
phosphorylase activityGO:0004645Фосфорилазная активностьISS

Таблица 2. Описание кодов достоверности, использованных в Таблице 1.

Код типа достоверностиРасшифровка кода типа достоверностиОбъяснение
ISSInferred from Sequence or structural SimilarityИспользуется при каком-либо анализе, включающем последовательности.
ISOInferred from Sequence OrthologyИспользуется, когда две последовательности предположительно ортологичны, т.е. имеют общего предка
ISAInferred from Sequence AlignmentИспользуется, когда основой анализа является выравнивание.
ISMInferred from Sequence ModelИспользуется, когда анализ включает работу с математической моделью.
IGCInferred from Genomic ContextИспользуется, когда известен геномный контекст гена.
IBAInferred from Biological aspect of AncestorИспользуется, когда вывод о свойствах потомка делается на основе свойств предполагаемого предка.
IBDInferred from Biological aspect of DescendantИспользуется, когда вывод о свойствах предка делается на основании свойств потомка.
IKRInferred from Key ResiduesВыводы делаются на основании отсутствия ключевых остатков.
IRDInferred from Rapid DivergenceИспользуется при быстрой дивергенции предковой последовательности.
RCAInferred from Reviewed Computational AnalysisИспользуется при каком-либо анализе, включающем последовательности.

Сначала мы нашли кластер ортологичных групп, в состав которого входит мой белок. Далее мы исследовали геномное окружение гена, кодирующего наш белок, то есть выяснили, какие гены соседствуют с ним. Затем в базе GO (посвещённой генной онтологии) с использованием алгоритма BLAST было найдено несколько похожих белков, но сам белок найден не был. Код достоверности был при этом ISS, то есть был основан чисто на последовательностях. Таким образом, мы нашли в базе GO несколько близких белков, но САМ белок не нашли.


© Елизавета Минина 2018