Terms

1.Получение информации о КОГе, к которому относится белок GO.

Для работы был выбран белок, данный в 1-ом семестре – глицин-оксидаза GLOX_BACSU, длинной в 382 а.о.
В поле поиска сервера CDD вставили последовательность этого белка в fasta-формате. Для получения результатов был выбран режим View>Full Results. Всего было найдено три КОГа (кластеры ортологичных групп), представленные в таблице ниже.

ID

Название

e-value

Остатки белка, соответствующие КОГу

Функциональная категория

COG0665

Glycine/D-amino acid oxidase (Оксидаза D-аминокислот/глицина)

1.12e-55

14 -363

Amino acid transport and metabolism
Транспорт аминокислот и метаболизм

COG0579

L-2-hydroxyglutarate oxidase (L-2-гидроксиглутарат оксидаза)

1.03e-12

98-308

Carbohydrate transport and metabolism
Транспорт углеводов и метаболизм

COG0578

Glycerol-3-phosphate dehydrogenase (глицерин-3-фосфат дегидрогеназа)

2.46e-06

29-310

Energy production and conversion
Продукция энергии и ее преобразование

2. Визуализация геномного окружения.

В качестве КОГа был выбран один из 3-х находок, имеющий лучший e-value COG0665.
С помощью сервиса STRING было представлено геномное окружения для выбранного КОГа и расшифровка характера взаимодействия различных КОГов(рис.1).Параметры для поиска были выбраны по умолчанию.

Вершинами графа являются КОГи , а ребра графа отражают наличие свидетельств о существовании связи между их белками. Разными цветами обозначаются разные типы свидетельств: достоверно известные (из проверенных баз данных, экспериментально подтверждённые); предсказанные (соседство генов, сшивки генов, совместная встречаемость генов).

Рис.2 Найденные КОГи и их взаимодействия

На рисунке 3 представлено соседство генов.

Рис.3

О строгой консервативности окружения или о наличии конкретных паттернов говорить не приходится. Тем не менее среди часто встречающихся элементов окружения можно выделить COG3938, белки которого являются пролин-рацемазами. Также можно отметить COG0446, белки которого являются NAD(FAD)-зависимыми дегидрогеназами (неохарактеризованными), а также COG4121, состоящего из неописанных консервативных белков.

3. Отнесение белка GLOX_BACSU к терминам GO.

C помощью инструмента AmiGO BLAST в базе данных GO был найден белок глицин оксидаза (Uniprot ID: Q81UX6) из организма Bacillus anthracis, судя по выравниванию более-менее похожий на GLOX_BACSU (Uniprot ID: Q63342) c e-value 1.8 е-48.

Рис.4 Лучшее выравнивание по результатам AmiGO BLAST.

В таблице 1 описаны все GO, отнесенные к найденному белку (страница белка http://amigo1.geneontology.org/cgibin/amigo/gpassoc.cgi?gp=TIGR_CMR:BA_0730&session_id=8148amigo1500381552#assoc, данные получены по ссылке Term Associations)

Аспект

Идентификатор GO

Название термина

Перевод названия термина

Код типа достоверности

Биологический процесс

GO:0006546

Glycine catabolic process

Катаболизм глицина

ISS

Молекулярная функция

GO:0016647

Oxidoreductase activity, acting on the CH-NH group of donors, oxygen as acceptor

Оксидоредуктазная активность ;

ISS

Код достоверности типа ISS (Inferred from sequence similarity), связанный со схожестью последовательностей: используется для аннотации, в основе которой лежит анализ последовательностей (должен быть проведен вручную). Если анализ проведен не вручную, используется код IEA (Inferred from Electronic Annotation). Если применяется комбинация методов и инструментов, анализирующих последовательности, необходимо использовать код ISS. В случае, когда используют лишь один метод, указывается одна из подкатегорий ISS:

ISA (Inferred from Sequence Alignment): в случае парного/множественного выравнивания

ISO (Inferred from Sequence Orthology): при оценке ортологичности продуктов белков из разных организмов

ISM (Inferred from Sequence Model): при использовании моделирования

ISS также используют в случае структурного сходства с экспериментально описанными продуктами генов, установленного с помощью кристаллографии, ЯМР или вычислительных предсказаний. В редком случае на практике код ISS применяют для аннотации, основанной лишь на данных о структуре. Если информация о структуре включена, то обычно она представляет собой данные моделирования вторичной структуры или предсказания структуры, основанного на последовательности. Информация о вторичной структуре бывает особенно полезна в качестве одного из компонентов предсказаний РНК-генов и в некоторых моделях доменов.

ID	Название	e-value	Остатки белка, соответствующие КОГу	Функциональная категория
COG0665	Glycine/D-amino acid oxidase (Оксидаза D-аминокислот/глицина)	1.12e-55	14 -363	Amino acid transport and metabolism Транспорт аминокислот и метаболизм
COG0579	L-2-hydroxyglutarate oxidase (L-2-гидроксиглутарат оксидаза)	1.03e-12	98-308	Carbohydrate transport and metabolism Транспорт углеводов и метаболизм
COG0578	Glycerol-3-phosphate dehydrogenase (глицерин-3-фосфат дегидрогеназа)	2.46e-06	29-310	Energy production and conversion Продукция энергии и ее преобразование

Аспект	Идентификатор GO	Название термина	Перевод названия термина	Код типа достоверности
Биологический процесс	GO:0006546	Glycine catabolic process	Катаболизм глицина	ISS
Молекулярная функция	GO:0016647	Oxidoreductase activity, acting on the CH-NH group of donors, oxygen as acceptor	Оксидоредуктазная активность ;	ISS