Филогения: ортологи и паралоги
Задание 1: Составление списка гомологичных белков, включающих паралоги
В этом задании надо было найти в моих бактериях достоверные гомологи белка CLPX_ECOLI.
Для того, чтобы это сделать, я решил написать скрипт (скачать). Этот скрипт в автоматическом режиме индексирует протеомы моих бактерий и бластует по ним последовательность данного мне белка, мне остаётся лишь проанализировать выход. В этом файле (скачать) Вы сможете найти список всех найденных гомологов.
Стоит отметить, что использовал я алгоритм
Задание 2: Реконструкция и визуализация
Далее надо было реконструировать филогенетическое дерево найденных гомологов. Я сделал это с помщью метода Neighbor-Joining. Здесь Вы сможете найти полученное дерево в Newick-формате, а тут - скачать.
Вот какие пары ортологов и паралогов я нашёл:
- Ортологи:
- A4SZP7_POLAQ и Q3SJH1_THIDA;
- CLPA_ECOLI и A8GCD8_SERP5;
- A1AY35_PARDP и Q3SKL1_THIDA;
- Паралоги:
- A1AZV8_PARDP и A1BBJ2_PARDP;
- A1B8N4_PARDP и A1AY35_PARDP;
- Q3SJR4_THIDA и Q3SI83_THIDA;
Ниже вы увидите рисунки получившегося дерева. Только я сразу замечу, что дерево на обоих рисунках изображено неукоренённое! Просто так его было проще и нагляднее изобразить.
Красным изображены ортологи белка HSLU (не включая POLAQ и NEIMA) с топологией поддерева, повторяющей топологию референсного дерева бактерий (даже включая укоренение). Синим изображены ортологи белка CLPX, включая все бактерии (с 4-мя ошибками относительно референсного дерева бактерий). Зелёным покрашены 3 ортолога белка RUVB из BRUSU, PARDP и NEIMA с абсолютно правильной топологией дерева. Циановым (без BRUSU и SACD2) и фиолетовым (со всеми бактериями) изображены 2 набора ортологов неизвестных мне белков (по мнемонике можно догадаться, что они из TrEMBL, т. е. аннотированны автоматически, поэтому я, основываясь на мнемонике этих белков, не могу ничего сказать об их функции). Ортологами я их посчитал потому, что они на своих поддеревьях находятся очень близко к друг другу, но в этот же момент они взяты из разных организмов, и при этом их поддеревья топологически сильно напоминают референсное дерево бактерий (2 ошибки у фиолетового и ни одной ошибки у цианового c верными укоренениями поддеревьев).