1.Получение информации о КОГе, к которому относится белок GO.

Для работы был выбран белок, данный в 1-ом семестре – глицин-оксидаза GLOX_BACSU, длинной в 382 а.о.
В поле поиска сервера CDD вставили последовательность этого белка в fasta-формате. Для получения результатов был выбран режим View>Full Results. Всего было найдено три КОГа (кластеры ортологичных групп), представленные в таблице ниже.

ID

Название

e-value

Остатки белка, соответствующие КОГу

Функциональная категория

COG0665

Glycine/D-amino acid oxidase (Оксидаза D-аминокислот/глицина)

1.12e-55

14 -363

Amino acid transport and metabolism
Транспорт аминокислот и метаболизм

COG0579

L-2-hydroxyglutarate oxidase  (L-2-гидроксиглутарат оксидаза)

1.03e-12

98-308

Carbohydrate transport and metabolism
Транспорт углеводов и метаболизм

COG0578

Glycerol-3-phosphate dehydrogenase (глицерин-3-фосфат дегидрогеназа)

2.46e-06

29-310

Energy production and conversion
Продукция энергии и ее преобразование

2. Визуализация геномного окружения.

В качестве КОГа был выбран один из 3-х находок, имеющий лучший e-value COG0665.
С помощью сервиса STRING было представлено геномное окружения для выбранного КОГа и расшифровка характера взаимодействия различных КОГов(рис.1).Параметры для поиска были выбраны по умолчанию.

Вершинами графа являются КОГи , а ребра графа отражают наличие свидетельств о существовании связи между их белками. Разными цветами обозначаются разные типы свидетельств: достоверно известные (из проверенных баз данных, экспериментально подтверждённые); предсказанные (соседство генов, сшивки генов, совместная встречаемость генов).



Рис.2 Найденные КОГи и их взаимодействия

На рисунке 3 представлено соседство генов.

Рис.3

О строгой консервативности окружения или о наличии конкретных паттернов говорить не приходится. Тем не менее среди часто встречающихся элементов окружения можно выделить COG3938, белки которого являются пролин-рацемазами. Также можно отметить COG0446, белки которого являются NAD(FAD)-зависимыми дегидрогеназами (неохарактеризованными), а также COG4121, состоящего из неописанных консервативных белков.

3. Отнесение белка GLOX_BACSU к терминам GO.

C помощью инструмента AmiGO BLAST в базе данных GO был найден белок глицин оксидаза (Uniprot ID: Q81UX6) из организма Bacillus anthracis, судя по выравниванию более-менее похожий на GLOX_BACSU (Uniprot ID: Q63342) c e-value 1.8 е-48.


Рис.4 Лучшее выравнивание по результатам AmiGO BLAST.


В таблице 1 описаны все GO, отнесенные к найденному белку (страница белка http://amigo1.geneontology.org/cgibin/amigo/gpassoc.cgi?gp=TIGR_CMR:BA_0730&session_id=8148amigo1500381552#assoc, данные получены по ссылке Term Associations)

Аспект

Идентификатор GO

Название термина

Перевод названия термина

Код типа достоверности

Биологический процесс

GO:0006546

Glycine catabolic process

Катаболизм глицина

ISS

Молекулярная функция

GO:0016647

Oxidoreductase activity, acting on the CH-NH group of donors, oxygen as acceptor

Оксидоредуктазная активность ;

ISS

Код достоверности типа ISS (Inferred from sequence similarity), связанный со схожестью последовательностей: используется для аннотации, в основе которой лежит анализ последовательностей (должен быть проведен вручную). Если анализ проведен не вручную, используется код IEA (Inferred from Electronic Annotation). Если применяется комбинация методов и инструментов, анализирующих последовательности, необходимо использовать код ISS. В случае, когда используют  лишь один метод, указывается одна из подкатегорий ISS:

  • ISA (Inferred from Sequence Alignment): в случае парного/множественного выравнивания
  • ISO (Inferred from Sequence Orthology): при оценке ортологичности продуктов белков из разных организмов
  • ISM (Inferred from Sequence Model): при использовании моделирования

ISS также используют в случае структурного сходства с экспериментально описанными продуктами генов, установленного с помощью кристаллографии, ЯМР или вычислительных предсказаний. В редком случае на практике код ISS применяют для аннотации, основанной лишь на данных о структуре. Если информация о структуре включена, то обычно она представляет собой данные моделирования вторичной структуры или предсказания структуры, основанного на последовательности. Информация о вторичной структуре бывает особенно полезна в качестве одного из компонентов предсказаний РНК-генов и в некоторых моделях доменов.