Карань Анна
студентка факультета биоинженерии и бионформатики

Геномное окружение. База данных GO

Задание 1. Получение информации о КОГе, к которому относится ваш белок

В данном задании нужно определить к какому КОГу относится данный мне в первом семестре белок NP_274428 . Для этого необходимо воспользоваться сервисом CDD, в поле поиска вставить последовательность белка в FASTA формате, а далее из списка науденных хитов выбрать хиты, относящие искомый белок к какому-либо КОГУ. В моем случае был найден только один такой хит (выдача). Это PepN (аминопептидаза N), относящая белок к COG0308. (Таблица 1)

Таблица 1. Характеристики обнаруженного КОГа
Идентификатор КОГаCOG0308
E-value для отнесения моего белка к данному КОГу0e+00
Интервал обнаружения КОГа в моем белке1-861
Название КОГа (en)Aminopeptidase N
Название КОГа (рус)Аминопептидаза N
Функциональные категории (en)E (Amino acid transport and metabolism)
Функциональные категории (рус)E (транспорт и метаболизм аминокислот)

Задание 2. Визуализация геномного окружения

Граф всех взаимодействий, который показывает STRING. (Рис.1)

Рис.1. граф всех взаимодействий
COG0308

На Рис.1 изображен граф, каждая вершина которого - совокупность белков (форм белка), транскрибируемых с одного гена (КОГ). Размер узла отражает наличие (большой) иили отсутствие (маленький) 3D структуры белка в базе данных, она может быть или известной точно, или предсказанной. У половины геномное окружения моего белка есть 3D структуры.

Рис.2. Значения цветов ребер графа, изображенного на Рис.1








Цвет ребер также имет смысл (Рис. 2)Розовые ребра отражают экспериментально доказанные взаимосвязи, голубые - взаимосвязи, информация о которых получена из курируемых баз данных. Ярко-зеленые ребра говорят о соседстве в геноме, красные - слияние генов, синие - совместную встречаемость. Светло-зеленые ребра означают совместное упоминание данных белков в Pub-Med, черные - коэкспрессию, а светло-синие - гомологию. На Рис.1 видно, что больше всего голубых ребер и светло-зеленых, а розовых (экспериментальные данные = лучшее доказательство) и ярко-зеленых (соседство) почти нет. Светло-зеленые ребра (совместное упоминание) - это очень плохое доказательство связи, мало ли почему их вместе упоминули.

Рис.3 Функциональные взаимосвязи pepN с другими белками графа

Рис.3 подтверждает сделанные мной выше замечания про взаимодействие белков данного графа. Ни один белок не связан отношениями соседства, слияния генов, коэкспрессии, совместной встречаемости с pepN. Чтобы окончательно в этом убедится посмотрим отдельно на "соседство" и совместную встречаемость.

Рис.4 Соседи гена pepN в различных организмах

Рис.4 еще раз подтверждает, что никакого консервативного окружения у pepN нет. Вот только есть чуть-чуть pepN и NMB1428 (красный и сиреневый блоки). Однако если приблизить дерево, что и это единичные случаи у отдельных видов в группе, т.е. опять же ни о каком геномном окружении говорить нельзя.

Рис.5 Совместная встречаемость генов

Рис.5 также еще раз подверждает, но уже, что нет совместной встречаемости белков, так как паттерн встречаемости не повторяется у разных белков (которые могли бы встречаться вместе) в разных организмах.

Задание 3. Отнесение белка NP_274428 из Neisseria meningitidis MC58 к терминам GO

В данном задании помощью инструмента AmiGO поиском BLAST необходимо обнаружить БД GO белок, который наиболее похож на мой. Наилучшая находка - VC_1494 aminopeptidase N, принадлежит Vibrio cholerae O1 biovar El Tor, т.е. не моей исходной бактерии.

Рис.6 Выравнивание белка NP_274428 из Neisseria meningitidis MC58 и VC_1494 aminopeptidase N из Vibrio cholerae O1 biovar El Tor. Характеристики выравнивания: Score=2037, E-value=1.0e-210, Identities = 420/866 (48%), Positives = 556/866 (64%)

Из Рис.6 следует, что, конечно, это не искомый белок, но сходство достаточно велико (особенно радует низкий e-velue), чтобы проводить параллели между этими двумя белками и терминами, ассоциированными с одним из них.
Значит, можно смотреть ассоциации VC_1494 aminopeptidase N, которые можно увидеть, нажав на "view associations" а таблице вывода blast. Всего найдено 3 ассоциации, охарактеризованные в Таблице 2.

Таблица 2. Термины, ассоциированные с белком VC_1494 aminopeptidase N
АспектИдентификатор GOНазвание терминаПеревод названия терминаКод типа достоверности
Биологический процессGO:0006508ProteolysisПротеолизISS
Функция молекулыGO:0004177Aminopeptidase activityАминопептидазная активностьISS
Функция молекулыGO:0008237Metallopeptidase activityМеталлопептидазная активностьISS

Объяснения встречающихся в Таблице 2 кодов достоверности представлены в Tаблице 3.

Таблица 3. Коды достоверности, встречающиеся в Таблице 2
Код типа довтоверностиРасшифровка кода типа достоверностиОбъяснение
ISSInferred from Sequence or structural Similarity Это код достоверности хороший и, как видно из названия кода, строит связи (т.е., например, относит найденный мной белок к какому-либо из терминов) на основе последовательностей. В ISS входят еще 3 типа: inferred from Sequence Orthology (ISO), inferred from Sequence Alignment (ISA), inferred from Sequence Model (ISM).
















©Карань Анна, 2015