Практикум 4. Реконструкция и визуализация дерева гомологичных белков
В рамках практикумах из директории /P/y22/term4/Proteomes были выбраны протеомы бактерий со следующими мнемониками: ACICJ, ROSDO, PARDP, NEIMA, THIDA, AROAE, PROMH, YEPRE. Их филогения изображена на рисунке 1.
C
Для поиска достоверных гомологов белка CLPX_ECOLI в протеомах они были объединены в один файл, который затем был проиндексирован:
makeblastdb -in alls.fasta -dbtype prot -out alls_db
Программа makeblastdb принимает файл с последовательностями в fasta-формате (параметр "-in") и создаёт локальную базу данных. Параметр "-dbtype" указывает на тип последовательности – по умолчанию prot, указано для напоминания; -out названия выходных файлов для белковой базы
Далее по полученной базе данных был проведен поиск гомологов белка CLPX_ECOLI при помощи программы blastp:
blastp -query ../pr4/CLPX_ECOLI.fasta -db alls_db -out all_blastp -evalue 0.0001 -outfmt 6
blastp ищет гомологов аминокислотной последовательности белка CLPX_ECOLI в ранее сформированной белковой базе данных.
Опции: -query задает имя файла с последовательностью белка (запрос); -db задает белковую базу; -out задает имя выходного файла; -outfmt задает формат выдачи (в нашем случае - табличная выдача формата 6 (Tabular)). Был установлен также порог E-value 0.0001.
В результате был получен список находок
Реконструкция и визуализация
При помощи команды seqret и обращению к uniprot, были получены аминокислотные последовательности находок, а затем в полученном fasta-файле отредактированы их названия (сохранялись только ID).
Последовательности были выровнены при помощи программы muscle , а затем при помощи программы IQ-Tree:
Последовательности были выровнены при помощи программы muscle параметрами по умолчанию, а затем при помощи программы IQ-Tree было реконструировано дерево:
iqtree -s homolog_alignment.fasta -bb 1000
Опция -bb позволяет позволяет сделать 1000 реплик бутсрепа.
В результате была получена скобочная формула в формате Newick
Будем считать, что дерево реконструировано верно, а найденные гомологи достоверны. В таком случае можно привести примеры пар ортологов и паралогов:
Ортологи - белки из разных организмов, разделение возникло в результате видообразования:
CLPX AROAE и CLPX THIDA
HSLU PARDP и HSLU ROSDO
HSLU PROMH и HSLU YEPRE
Паралоги - гомологичные белки из одного организма, разошлись в результате генной дупликации:
CPLX AROAE и HSLU AROAE
CPLX THIDA и Q3SFW1 THIDA
CPLX ACICJ и A5FVF9 ACICJ
С полученным деревом можно ознакомится на рисунке 2.
Далее рассмотрим ортологические группы подробнее.
Розовая группа: АТФ-зависимая Clp протеаза, АТФ-связывающая субъединица
Неправильно реконструирована веть NEIMA. Она должна быть ближе к кладе, состоящей из AROAE+THIDA. Остальное всё верно.
Фиолетовая группа - АТФ-зависимая протеаза, АТФ субъединица HslU
В группе не представлены бактерии NEIMA. Реконструированная филогения белков соответствует филогении бактерий.