Отчет по практикуму 6. Геномное окружение. База данных GO.

На этой странице выложен отчет по практикуму 6. Геномное окружение. База данных GO.

Получение информации о КОГе, к которому относится мой белок.


Для работы был использован белок с идентификатором YP_001217433.1. Его аминокислотная последовательность была вставлена в поле поиска на сервисе Conserved Domain Database. После отображения полных результатов поиска я сделал вывод, что изучаемый белок относится к метаболическому пути с идентификатором COG2186 (DNA-binding transcriptional regulator, FadR family). Этот белок - ДНК связывающий транскрипционный регулятор. E-value для отнесения изучаемого белка к данному КОГу составляет 8.76e-50. В белке обнаруживается КОГ с 1 по 273 остаток.
Таблица 1. Характеристики найденного КОГа.
Название КОГа и функциональная категория на английском языкеПеревод названия КОГа и функциональной категории на русский язык
DNA-binding transcriptional regulator, FadR familyДНК связывающий транскрипционный регулятор, семейство FadR

Визуализация геномного окружения.


Для белка с идентификатором YP_001217433.1 с помощью сервиса STRING было получено геномное окружение, представленное на рисунке 1. На рисунке 2 представлены все найденные сервисом белки. При этом поиск был проведен по идентификатору белка. Для поиска я выбрал параметры по умолчанию.

Рис. 1. Геномное окружение COG2186.


Рис. 2. Найденные КОГи и их взаимодействия.


Рис. 3. Расшифровка обозначений.

На рисунке 1 представлен граф, каждая вершина которого - совокупность белков (или форм белка), транслируюемых с одного гена. Размер узла отражает наличие или отсутствие 3D структуры белка в базе данных. Большой узел означает наличие 3D структуры белка в базе данных, маленький узел - ее отсутствие. 3D структура может бть известна точно или предсказана. На рисунке 1 изображено 4 изоформы(36,3%), для которых есть 3D структура в базе данных, и 7 изоформ(63,7%), для которых ее нет.
Цвет ребер означает следующее:
1) розовый - экспериментально доказанные связи
2) голубой - взаимодействия, информация о которых взята из курируемых баз данных
3) ярко-зеленый - соседство в геноме
4) красный - слияние генов
5) синий - совместная встречаемость
6) светло-зеленый - совместное упоминание белков в PubMed
7) черный - коэкспрессия
8) светло-синий - гомология
Как можно увидеть из рис. 1 все вершины графа соединены светло-зелеными ребрами(то есть из больше всего), которые являются не очень хорошим доказательством связи, второе место по количеству у синих ребер, которые можно считать более хорошим доказательством связи. Примерно одинаковое оличество черных черных, светло-зеленых и черных ребер, которые соединяют изоформы ACP10337.1, ACP09852.1, VC395_2347, VC395_1855, VC395_A1578 b ACP10100.1. Эти 5 изоформ соединены ребрами с кратностью 5. Однако не все из этих 5 изоформ соединены напрямую. Можно предположить, что эти связи между теми парами из этих пяти изоформ, которые соединены ребрами с кратностью 5, доказаны с высокой степенью уверенности.
Как можно увидеть из рис. 2 совместная встречаемость(Cooccurance) установлена только для 2 изоформ: ACP10780.1 и metJ. Для всех изоформ установлена совместное упоминание в PubMed(Textmining), причем для ACP10780.1 и metJ оно установлено с меньшим Score, чем у остальных. Другие виды связей между изоформами не установлены. Из этого можно заключить, что у изучаемого белка отсутствует консервативное геномное окружение.

Рис. 4. Соседи изучаемого гена.


Рис. 5. Расшифровка обозначений.

Из рисунка 5 видно, что можно предположить связи между белками fadR и VC395_1855, fadR и VC0395_A1578, fadR и ACP09852.1. Эти связи обнаружены менее, чем у четверти организмов (каккие-либо связи на картинке отображены у 9 организмов из 41). Однако при попытке приблизить дерево(посмотреть таксоны более низкого уровня) оказывается, что связи есть лишь у отдельных видов в группе(чаще всего лишь у одного вида в группе). Таким образом, о геномном окружении говорить нельзя.

Рис. 6. Совместная встречаемость.

Из рисунка 6 можно сделать вывод, что совместной встречаемости белков нет, так как паттерн встречаемости не повторяется у разных белков, которые могли бы встречаться вместе в разных организмах.
Выравнивание в формате mfa
Выравнивание в формате msf
Весь проект
Дерeво в формате Newick
Рис. 2. Дерево, построенное с помощью Maximum Likelihood method.

Выравнивание было построено программой Jalview с помощью программы Muscle. Дерево было построено с помощью программой MEGA с помощью метода наибольшего правдоподобия.

Отнесение регулятора метаболизма жирных кислот из бактерии Vibrio Cholerae 0395 к терминам GO.


В этом задании я обнаружил с помощью сервиса Amigo поиском BLAST в базе данных GO белок, который наиболее похож на исследуемый белок - регулятор метаболизма жирных кислот из бактерии Vibrio Cholerae 0395. Наилучшая находка - fadR(синоним - VC_1900) принадлежит Vibrio cholerae O1 biovar El Tor str. N16961. Это батерия того же вида, что и бактерия Vibrio Cholerae 0395, которой принадлежит исходный белок, но другого штамма. Найденны в БД GO белок является тем же самым, что и исходный белок, так как у них полностью совпадает аминокислотная последовательность. E-value составляет 9.0e-148. Выравнивание приведено на рисунке 7.

Рис. 7. Выравнивание белка, найденного с помощью Amigo и исходного белка.

Далее я перешел на страницу белка, щелкнув по названию в таблице с результатами BLAST, потом открыв вкладку 4 term associations.
Таблица 2. Термины GO, отнесенные к белку с идентификатором Uniprot Q9KQU8 (FADR_VIBCH).
АспектИдентификатор GOНазвание терминаПеревод названия терминаКод типа достоверности
Биологический процесс (Biological process)GO:0071072negative regulation of phospholipid biosynthetic processОтрицательная регуляция процесса биосинтеза фосфолипидаIMP
Биологический процесс (Biological process)GO:0019217regulation of fatty acid metabolic processISS
Биологический процесс (Biological process)GO:0006355regulation of transcription, DNA-templatedISS
Функция молекулы (Molecular function)GO:0003700transcription factor activity, sequence-specific DNA bindingISS

Объяснения приведенных в Таблице 2 кодов достоверности представлены в Таблице 3.
Таблица 3. Описание кодов достоверности, использованных в Таблице 1.
IMPРасшифровка кода типа достоверностиОбъяснение
ISSРасшифровка кода типа достоверностиОбъяснение

Ссылки:


[1] http://lib.stat.cmu.edu/S/bootstrap.funs
[2] Эфрон, 1979.