Поиск и визуализация ортологов и паралогов

На данной странице представлен практикум по поиску ортологов и паралогов белка CLPX_ECOLI в протеомах бактерий, выбранных в предыдущем практикуме, и визуализации полученных данных в Mega.

1) Составление списка гомологичных белков:

Для поиска гомологичных белков в протеомах бактерий, выбранных в предыдущем практикуме, с помощью команд:

cat *.fasta > proteoms.fasta
makeblastdb -in proteoms.fasta -dbtype prot

были собраны в один файл все протеомы выбранных бактерий, после чего он стал источником для составления базы данных blast. Далее по этой базе с помощью команды:

blastp -task blastp -query query.fasta -db proteoms.fasta -evalue 0.001

был произведен поиск гомологов белковой последовательности query.fasta программой blastp с максимальным значением Е-value - 0.001. В результате было найдено 27 последовательностей гомологичных белку CLPX_ECOLI(первая колонка - название, вторая - вес в байтах, третья - значение E-value):

Оригинальный файл выдачи c выравниваниями можно скачать по ссылке.

2) Реконструкция и визуализация:

Последовательности найденных гомологичных белков были скачаны и выровнены в программе Jalview. После чего для них с помощью алгоритма Maximum likelihood в Mega было построено данное дерево:

Responsive image
Рис.1 Филогенетическое дерево гомологичных белков.

Newick-формула данного дерева.

Для примера на дереве можно выделить:

На дереве можно выделить три ортологичные группы:

Они представлены на дереве:

Responsive image
Рис.2 Филогенетическое дерево c ортологичными группами.

Отнесение к одной группе ортологичных последовательностей производилось на основании положения на дереве и одинакового названия в базе данных. Поэтому внутри дерева есть несколько последовательностей не относящихся ни к какой ортологичной группе (они имеют названия ATPase AAA-2/Protease/ATPase AAA-2 domain protein), т.к. эти белки неаннотированы и их функция только предполагается.
В ортологичной группе "ATP-dependent zinc metalloprotease FtsH" встречаются все виды выбранных бактерий, а ACIC1 2 раза, что, вероятно, связано с дупликацией этого гена в геноме Acidothermus cellulolyticus. Топология дерева ортологов в целом соответствует топологии эталонного дерево - почти все нетривиальные ветви общие.
В группе "Holliday junction ATP-dependent DNA helicase RuvB" всего три последовательности - из NOCSJ, BIFLО и ARTS2, что в целом соответствует топологии эталонного дерева (все эти последовательности относятся к одной кладе внутри Actinomycetia. Отсутствие в других бактериях вероятно связано либо с исчезновением данного гена в эволюции, либо неаннотированностью данных последовательностей.
В группе "ATP-dependent Clp protease ATP-binding subunit ClpX" присутствуют все 8 последовательностей из всех выбранных бактерий и дерево ортологов имеет сходства с эталонным деревом из-за наличия нескольких общих нетривиальных ветвей.

Дерево с схлопнутыми ветвями:

Responsive image
Рис.3 Филогенетическое дерево cо схлопнутыми ортологичными группами.

Обсуждение представлено в подписи ко второму дереву.

© Беляев Геннадий, 2020 ‐ 2026