Практикум 4. Семинар по практическим аспектам реконструкции филогении

Составление списка гомологичных белков, включающих паралоги

Для выполнения данного практикума были отобраны протеомы следующих бактерий из директории /P/y22/term4/Proteomes:

Далее необходимо было подготовить эти протеомы для запуска программы blastp, для этого сначала протеомы были объединены в единый файл (работа осуществлялась в директории term4/practice4):

Затем на основе выбранных протеомов была создана локальная БД с помощью команды:

Затем был запущен blastp на основе созданной базы данных, в качестве запроса подавалась последовательность белка с мнемоникой CLPX_ECOLI (ссылка на файл в fasta-формате), для отбора достоверных гомологичных белков был поставлен порог E-value 0.0001 при помощи следующей команды:

Был получен список находок:

Рисунок 1. Выдача blastp

Реконструкция и визуализация

Далее я сделала новый файл для более удобной работы и сделала следующие манипуляции:

Здесь представлена ссылка на формулу дерева в формате Newick. Ниже представлено изображение дерева:

Рисунок 2. Реконструкция дерева находок с помощью FastME и модели MtREV с использованием бутстреп (100 реплик)

Далее было произведено укоренение дерева в среднюю точку. Ниже представлено изображение дерева:

Рисунок 3. Дерево находок: разными цветами показаны различные ортологические группы

С помощью разных цветов можно было выделить различные ортологические группы (наборы попарно ортологичных белков, как минимум 4 последовательности в группе). Было выделено 3 штуки (зелёная - ATP-dependent protease ATPase subunit HslU, синяя - ATP-dependent Clp protease ATP-binding subunit ClpX, красная - ATP-dependent zinc metalloprotease FtsH). На дереве можно увидеть примеры пар ортологов и паралогов:

Далее выделенные группы были схлопнуты:

Рисунок 4. Дерево находок (схлопнутое): разными цветами показаны различные ортологические группы

Для более удобного анализа я сюда же вставлю дерево с верной филогенией:

Рисунок 5. Дерево верной филогении

В красную кладу попали белки всего лишь из 4 организмов, однако она построена верно. В зеленую кладу попали белки из 6 организмов: однако она построена неверно: самой внутренней кладой должна быть (PASMU, YERPE), затем (BURMA, AROAE) и только потом (BRUSU, ACICJ). В синюю кладу попали белки всех 7 организмов: однако она построена неверно: самой внешней кладой будет YERPE, потом PASMU, дальше (AROAE, (POLAQ, BURMA)) и только потом (BRUSU, ACICJ).