Wednesday, March 29, 2017. Posted by Marina Gladkova

Геномное окружение. База данных GO.

Задание 1. Получение информации о COG`е, к которому относится белок.



Для выполнения практикума был использован белок фенилацетат-коэнзим A лигаза из организма Bacteroides thetaiotaomicron VPI-5482 (с идентификатором NP_809341.1), выданный для работы в 1 семестре. Его длина составляет 435 аминокислотных остатков. С помощью сервиса CDD (Conserved Domain Database) для моего белка был получен список хитов, откуда были выбраны хиты, относящие его к тому или иному КОГу.

Список хитов белка NP_809341.1



Для данного белка нашлось 3 кластера ортологических групп, в таблице ниже представлена информация по каждому КОГу в соотвествии с последним релизом базы данных.

IDКоординатыE-valueНазвание (annotation)Функциональная категория (cat)
COG15415-4320e+00Phenylacetate-coenzyme A ligase PaaK, adenylate-forming domain family (фенилацетат-коэнзим А лигаза Paak (название гена), семейство аденилат-формирующих доменовH: сoenzyme transport and metabolism (транспорт и метаболизм коэнзимов)
COG036590-4332.35e-17Acyl-coenzyme A synthetase/AMP-(fatty) acid ligase (Ацил-коэнзим A синтетаза/АМФ-лигаза жирных кислот)I: lipid transport and metabolism (транспорт и метаболизм липидов)
COG031893-3545.17e-17Acyl-CoA synthetase (AMP-forming)/AMP-acid ligase II (Ацил-КоА синтетаза (АМФ-образующая)/АМФ-кислота лигаза II)IQ: lipid transport and metabolism (транспорт и метаболизм липидов) и secondary metabolites biosynthesis, transport and catabolism (биосинтез, транспорт и катаболизм вторичных метаболитов)




Задание 2. Визуализация геномного окружения.



Изображение геномного окружения КОГа было получено c помощью сервисов STRING или COGNAT. Был выбран COG с лучшим E-value - COG1541. Поиск проводился по последовательности нашего белка (идентификатор STRING - BT_0428) по организму Bacteroides thetaiotaomicron. Изображение STRING было получено при следющих параметрах:

Max number of interactors to show/максимальное число взаимодействующих белков1st shell/первого уровня сродства2nd shell/второго уровня сродства
No more than 5 interactors/не более 5No more than 5 interactors/не более 5
Minimum required interaction score/минимально требуемый балл взаимодействияHigh confidence (0.700)/Высокий уровень достоверности


Геномное окружение COG1541 (STRING)



На рисунке в каждом узле графа расположен белок (совокупность изоформ, транскрибирующихся с одного локуса гена). Ребра графа символизируют белок-белковые взаимосвязи (не обязательно физические связи, могут также наблюдаться функциональные связи). Белки с известной 3D-структурой отображаются вместе с изображением структуры в больших узлах, цветные узлы - query protein и 1st shell interactors, белые узлы - 2nd shell interactors.
Цвет ребер отражает тип взаимосвязей.

Цвет ребраТип связи
ГолубойИнформация о взаимосвязях из курируемых баз данных (from curated databases)
ФиолетовыйЭкспериментально доказанные взаимосвязи (experimentally determined)
Темно-зеленыйCоседство в геноме (gene neighborhood)
КрасныйCлияние генов (gene fusions)
СинийСовместная встречаемость в геноме (gene co-occurrence)
Светло-зеленыйCовместное упоминание белков в Pub-Med Abstract (textmining)
ЧерныйКоэкспрессия (co-expression)
Светло-синийГомология (protein homology)

На нашем графе наибольшее число ребер окрашены в синий, темно- или светло-зеленый цвета, отражающие не самые достоверные взаимосвязи. Доказанных экспериментально взаимосвязей не наблюдается.

Таблица взаимосвязей для BT_0428 (STRING)



В полученных белках наблюдается консервативное окружение, что подтверждается наличием различных паттернов, указанных на рисунке (в графе, соответственно, каждый белок связан с другим темно-зеленым ребром). Самый длинный паттерн из 4 белков образован следующими КОГами:
>
IDЦвет на схемеНазваниеФункциональная категория
COG4231ЖелтыйИндольпируват ферредоксин оксидоредуктаза (субъединица α)C: energy production and conversion (выработка и конверсия энергии)
? (не нашла в базе)Темно-зеленыйИндольпируват оксидоредуктаза (субъединица β)Вероятно, функциональная категория совпадает с предыдущим КОГом
COG1541Красная и белая горизонтальные полосы (отражают сложный характер ортологических отношений, что может быть связано с дупликацией генов или техническими проблемами с определнием ортологии)Фенилацетил-коэнзим А лигазаH: сoenzyme transport and metabolism (транспорт и метаболизм коэнзимов)
COG3830БирюзовыйACT domain protein, связывает аминокислоты и другие маленькие лиганды T: signal transduction mechanisms (механизмы каскада трансдукции сигнала)


Встречается паттерн в таксонах Proteobacteria, Firmicutes, Bacterioudetes Chlorobi group, Chlamydiae Verrucomicrobia group и у протеобактерий. Очевидно, что 2 субъединицы индольпируват ферредоксин оксидоредуктазы должны быть связаны функционально. Кроме того, упомянутый ACT домен [1], [2] является С-концевым регуляторным доменом 3-фосфоглицератдегидрогеназы, которая по топологии упаковки напоминает ферредоксин.
Геномное окружение достаточно консервативно, однако можно наблюдать дупликации и индели у некоторых групп организмов.


Gene neighbourhood для BT_0428 (STRING)





Задание 3. Отнесение белка NP_809341.1 к терминам GO.



Использовался поиск по последовательности моего белка инструментом AmiGO. Самым близким белком по результатам работы программы оказался белок Q74CD7 (Uniprot) - фенилацетат-коэнзим А лигаза из организма Geobacter sulfurreducens PCA. Несмотря на то, что бактерии относятся к достаточно далеко отстающим друг от друга кладам - типам Bacteroides и Proteobacteria, думаю, что белки схожи, так как в выравнивании из 235 позиций наблюдаются 15 блоков, E-value составляет 2.0e-102, число совпадений удовлетворительно .


Лучшее выравнивание по результатам BLAST AmiGO



На странице белка по ссылке N term associations размещена информация о соответствующих данному белку терминах GO. Для этого белка нашелся только 1 термин GO, поэтому я объединила описанные в задании таблицы 1 и 2 в одну.


АспектИдентификатор GOНазвание терминаПеревод названия термина Код типа достоверности
Молекулярная функция (Molecular function)GO:0016874Ligase activityЛигазная активность ISS
КодРасшифровкаОбъяснение
ISSInferred from sequence similarity/в основе - сходство последовательностей или структурноеISS код или одна из его разновидностей используется, когда в основе аннотации лежал анализ последовательностей, при этом он должен был быть проверен вручную. Если такой проверки не производилось, корректно использовать код IEA. Общий код ISS должен быть указан, если применяется комбинация анализирующих сиквенсы инструментов и методов. В случае использования лишь одного метода следует указывать одну из подкатегорий ISS: ISA (Inferred from Sequence Alignment) - при анализе парного или множественного выравнивания, ISO (Inferred from Sequence Orthology) - при оценке ортологичности продуктов генов из разных организмов, ISM (Inferred from Sequence Model) - при использовании какого-либо метода моделирования (например, скрытой марковской модели). ISS также можно использовать при наличии структурного сходства с экспериментально описанными продуктами генов, установленного с помощью кристаллографии, ЯМР или вычислительных предсказаний. На практике код ISS практически никогда не применяют для аннотации, основанной только на информации о структуре. Если информация о ней и включается, то обычно она представляет собой данные моделирования вторичной структуры или предсказания структуры, основанного на последовательности. Информация о вторичной структуре бывает особенно полезна в качестве одного из компонентов предсказаний РНК-генов и в некоторых моделях доменов.

Источники