Практикум 4. Реконструкция и визуализация дерева гомологичных белков

В рамках практикумах из директории /P/y22/term4/Proteomes были выбраны протеомы бактерий со следующими мнемониками: ACICJ, ROSDO, PARDP, NEIMA, THIDA, AROAE, PROMH, YEPRE. Их филогения изображена на рисунке 1.

C
Рис. 1 Верная филогения выбранных бактерий

Для поиска достоверных гомологов белка CLPX_ECOLI в протеомах они были объединены в один файл, который затем был проиндексирован:

makeblastdb -in alls.fasta -dbtype prot -out alls_db

Программа makeblastdb принимает файл с последовательностями в fasta-формате (параметр "-in") и создаёт локальную базу данных. Параметр "-dbtype" указывает на тип последовательности – по умолчанию prot, указано для напоминания; -out названия выходных файлов для белковой базы

Далее по полученной базе данных был проведен поиск гомологов белка CLPX_ECOLI при помощи программы blastp:

blastp -query ../pr4/CLPX_ECOLI.fasta -db alls_db -out all_blastp -evalue 0.0001 -outfmt 6

blastp ищет гомологов аминокислотной последовательности белка CLPX_ECOLI в ранее сформированной белковой базе данных.

Опции: -query задает имя файла с последовательностью белка (запрос); -db задает белковую базу; -out задает имя выходного файла; -outfmt задает формат выдачи (в нашем случае - табличная выдача формата 6 (Tabular)). Был установлен также порог E-value 0.0001.

В результате был получен список находок

Реконструкция и визуализация

При помощи команды seqret и обращению к uniprot, были получены аминокислотные последовательности находок, а затем в полученном fasta-файле отредактированы их названия (сохранялись только ID).

Последовательности были выровнены при помощи программы muscle , а затем при помощи программы IQ-Tree:

Последовательности были выровнены при помощи программы muscle параметрами по умолчанию, а затем при помощи программы IQ-Tree было реконструировано дерево:

iqtree -s homolog_alignment.fasta -bb 1000

Опция -bb позволяет позволяет сделать 1000 реплик бутсрепа.

В результате была получена скобочная формула в формате Newick

Будем считать, что дерево реконструировано верно, а найденные гомологи достоверны. В таком случае можно привести примеры пар ортологов и паралогов:

Ортологи - белки из разных организмов, разделение возникло в результате видообразования:

CLPX AROAE и CLPX THIDA

HSLU PARDP и HSLU ROSDO

HSLU PROMH и HSLU YEPRE

Паралоги - гомологичные белки из одного организма, разошлись в результате генной дупликации:

CPLX AROAE и HSLU AROAE

CPLX THIDA и Q3SFW1 THIDA

CPLX ACICJ и A5FVF9 ACICJ

С полученным деревом можно ознакомится на рисунке 2.

Рис. 2 Реконструкция дерева найденных при помощи blastp гомологов белка CLPX_ECOLI. Дерево было реконстрировано при помощи программы IQ-Tree, укоренено в среднюю точку. Цветами обозначены ортологические группы (наборы попарно ортологичных белков): голубой - АТФ-зависимая Clp протеаза, АТФ-связывающая субъединица ClpX; зеленый - АТФ-зависимая цинковая металлопротеаза FtsH, желтым - АТФ-зависимая протеаза, АТФ субъединица HslU, без цвета - Субъединица RuvB комплекса миграций ветвей Holliday-структур.

Далее рассмотрим ортологические группы подробнее.

Розовая группа: АТФ-зависимая Clp протеаза, АТФ-связывающая субъединица

Неправильно реконструирована веть NEIMA. Она должна быть ближе к кладе, состоящей из AROAE+THIDA. Остальное всё верно.

Фиолетовая группа - АТФ-зависимая протеаза, АТФ субъединица HslU

В группе не представлены бактерии NEIMA. Реконструированная филогения белков соответствует филогении бактерий.

Рисунок 3. Реконструкция дерева найденных при помощи blastp гомологов белка CLPX_ECOLI. Дерево было реконстрировано при помощи программы IQ-Tree, укоренено в среднюю точку. Цветами обозначены ортологические группы (наборы попарно ортологичных белков): розовый - АТФ-зависимая Clp протеаза, АТФ-связывающая субъединица ClpX; зеленый - АТФ-зависимая цинковая металлопротеаза FtsH, фиолетовым - АТФ-зависимая протеаза, АТФ субъединица HslU. Ортологические группы, содержащие более трех последовательностей “схлопнуты”. Комментарии к группам даны выше.