Геномное окружение. База данных GO
Геномное окружение. База данных GO
1. Получение информации о КОГе, к которому относится белок
В данном задании нужно использовать для работы данный мне в первом семестре белок YP_400610. Это альдегид декарбонилаза Synechococcus elongatus PCC 7942.
Однако после изменения системы идентификаторов в NCBI и т.д. по этому идентификатору последовательности нет, и со страницы генома данного организма при поиске этого белка идет ссылка по идентификатору
WP_011378104.
Но сервис CDD не выдал КОГов для данного белка, поэтому пришлось использовать другой. NP_953118 -
гидролаза HAD суперсемейства Geobacter sulfurreducens PCA. При помощи сервиса CDD (Conserved Domain Database) был получен список находок, некоторые из которых относили белок к определенному КОГу.
Такие хиты были отобраны, и для каждого из соответствующих КОГов было получено его название и функциональная категория, к которой он принадлежит.
Это проводилось при использовании последнего релиза базы данных по КОГам (Таблица 1).
Таблица №1 Краткая информация о найденных КОГах |
||||
ID | E-value | Интервал | Название | Функциональная категория |
COG0546 | 7.31e-30 | 8-188 | Phosphoglycolate phosphatase Фосфоглюколат фосфатаза | С - Energy production and conversion Производство и преобразование энергии |
COG0637 | 5.43e-26 | 8-209 | Beta-phosphoglucomutase бета-фосфоглюкомутаза | GR - Carbohydrate transport and metabolism Транспорт и метаболизм углеводов |
COG1011 | 1.69e-19 | 8-209 | FMN phosphatase YigB FMN фосфатаза YigB | H - Coenzyme transport and metabolism Транспорт и метаболизм коферментов |
COG0241 | 2.95e-03 | 146-209 | Histidinol phosphatase Гистидинол фосфатаза | E - Amino acid transport and metabolism Транспорт и метаболизм аминокислот |
2. Визуализация геномного окружения
Для визуализации был выбран КОГ с наилучшим значением e-value – COG0546. С помощью сервиса
STRING были предсказаны функциональные взаимодействия между КОГами в виде графа (Рис.1).
Входным параметром служил COG ID = 'COG0546'. Настройки же были оставлены по умолчанию.
|
Рис. 1 Граф всех взаимодействий COG0546 |
Цвет ребер также имет смысл (Рис. 2).
|
Рис. 2 Часть легенды изображенного на Рис. 1 графа. Розовые ребра отражают экспериментально доказанные взаимосвязи, голубые - взаимосвязи, информация о которых получена из курируемых баз данных. Ярко-зеленые - соседство в геноме, красные - слияние генов, синие - совместную встречаемость. Светло-зеленые ребра означают совместное упоминание данных белков в Pub-Med, черные - коэкспрессию, а светло-синие - гомологию. |
|
Рис. 3 Обозначения КОГов и сила свидетельств связанности |
|
Рис. 4 Геномное окружение для COG0546 |
По Рис.4 видно, что у COG0546 отсутствует консервативное геномное окружение, т.е. нет постоянных соседей.
|
|
Рис. 5 Совместная встречаемость в бактериях | Рис. 6 Совместная встречаемость в археях |
На Рис.5 видно, что и совместной встречаемости COG0546 с каким-то другим КОГом нет.
3. Отнесение гидролазы HAD суперсемейства из Geobacter sulfurreducens PCA к терминам GO
С помощью инструмента AmiGO поиском BLAST необходимо обнаружить в БД GO белок, который наиболее похож на исследуемый.
Первой находкой blast оказался именно мой белок – HAD-superfamily hydrolase, subfamily IA, variant 1 из Geobacter sulfurreducens PCA с e-value = 1,8е-110.
В Таблице 2 указаны термины, ассоциированные с данным белком.
Таблица №2 Термины, ассоциированные с данным белком |
|||
Аспект | Идентификатор GO | Название термина | Код типа достоверности |
Биологический процесс | GO:0008152 | Metabolic process, Метаболический процесс | ISS |
Молекулярная функция | GO:0016787 | Hydrolase activity, гидролазная активность | ISS |
Объяснения встречающихся в Таблице 2 кодов достоверности представлены в Tаблице 3.
Таблица №3 | ||
Код типа достоверности | Расшифровка кода типа достоверности | Объяснение |
ISS | Inferred from Sequence or structural Similarity | Это код достоверности хороший и, как видно из названия кода, строит связи с термином на основе последовательностей. В ISS входят еще 3 типа: inferred from Sequence Orthology (ISO), inferred from Sequence Alignment (ISA), inferred from Sequence Model (ISM). |