Поиск и визуализация ортологов и паралогов
На данной странице представлен практикум по поиску ортологов и паралогов белка CLPX_ECOLI в протеомах бактерий, выбранных в предыдущем практикуме, и визуализации полученных данных в Mega.
1) Составление списка гомологичных белков:
Для поиска гомологичных белков в протеомах бактерий, выбранных в предыдущем практикуме, с помощью команд:
были собраны в один файл все протеомы выбранных бактерий, после чего он стал источником для составления базы данных blast. Далее по этой базе с помощью команды:
был произведен поиск гомологов белковой последовательности query.fasta программой blastp с максимальным значением Е-value - 0.001. В результате было найдено 27 последовательностей гомологичных белку CLPX_ECOLI(первая колонка - название, вторая - вес в байтах, третья - значение E-value):
Оригинальный файл выдачи c выравниваниями можно скачать по ссылке.
2) Реконструкция и визуализация:
Последовательности найденных гомологичных белков были скачаны и выровнены в программе Jalview. После чего для них с помощью алгоритма Maximum likelihood в Mega было построено данное дерево:
Newick-формула данного дерева.
Для примера на дереве можно выделить:
На дереве можно выделить три ортологичные группы:
Они представлены на дереве:
Отнесение к одной группе ортологичных последовательностей
производилось на основании положения на дереве и одинакового названия в базе данных. Поэтому внутри дерева есть несколько последовательностей не относящихся
ни к какой ортологичной группе (они имеют названия ATPase AAA-2/Protease/ATPase AAA-2 domain protein), т.к. эти белки неаннотированы и их функция только предполагается.
В ортологичной группе "ATP-dependent zinc metalloprotease FtsH" встречаются все виды выбранных бактерий, а ACIC1 2 раза, что, вероятно, связано с дупликацией этого гена в
геноме Acidothermus cellulolyticus. Топология дерева ортологов в целом соответствует топологии эталонного дерево - почти все нетривиальные ветви общие.
В группе "Holliday junction ATP-dependent DNA helicase RuvB" всего три последовательности - из NOCSJ, BIFLО и ARTS2, что в целом
соответствует топологии эталонного дерева (все эти последовательности относятся к одной кладе внутри Actinomycetia. Отсутствие в других бактериях вероятно связано
либо с исчезновением данного гена в эволюции, либо неаннотированностью данных последовательностей.
В группе "ATP-dependent Clp protease ATP-binding subunit ClpX"
присутствуют все 8 последовательностей из всех выбранных бактерий и дерево ортологов имеет сходства с эталонным деревом из-за наличия нескольких общих нетривиальных ветвей.
Дерево с схлопнутыми ветвями:
Обсуждение представлено в подписи ко второму дереву.