Практикум 4

Составление списка гомологичных белков, включающих паралоги

Для выполнения данного практикума были отобраны протеомы следующих бактерий из директории /P/y22/term4/Proteomes (ниже приведены их мнемоники):

ACICJ
BARHE
BURMA
NEIMA
POLAQ
PSEMY
SACD2

Далее для подготовки протеомов к запуску программы blastp все выбранные файлы были объединены в один, используя следующую команду (работа проводилась в отдельной директории):

cat /P/y22/term4/Proteomes/ACICJ.fasta /P/y22/term4/Proteomes/BARHE.fasta /P/y22/term4/Proteomes/BURMA.fasta /P/y22/term4/Proteomes/NEIMA.fasta /P/y22/term4/Proteomes/POLAQ.fasta /P/y22/term4/Proteomes/PSEMY.fasta /P/y22/term4/Proteomes/SACD2.fasta > alls.fasta

На основе полученного файла была создана локальная база данных для запуска blastp с помощью команды:

makeblastdb -in alls.fasta -dbtype prot

Затем для поиска гомологичных белков был запущен blastp, в качестве запроса использовалась последовательность белка с мнемоникой CLPX_ECOLI (файл query.fasta). Для отбора достоверных находок установлен порог на E-value в 0.0001:

blastp -task blastp -query search.fasta -db alls.fasta -out blast.out -evalue 0.0001

В результате был получен следующий список находок

Реконструкция и визуализация

После получения списка находок были собраны в один файл fasta-файлы соответствующих последовательностей. Затем было проведено множественное выравнивание с помощью программы muscle. Полученное выравнивание было преобразовано в формат .phy (при помощи скрипта), и на его основе построено филогенетическое дерево с использованием программы FastME, модели MtREV и 100 бутстреп-реплик. Действия повторяют схему, использованную в предыдущих практикумах.

Дерево FastME — **Рис. 2.** Реконструкция дерева, выполненная программой FastME с моделью MtREV и 100 бутстреп-репликами.

На рисунке представлено дерево, на котором разными цветами выделены ортологические группы (наборы попарно ортологических белков, в каждой группе не менее четырёх последовательностей). По результатам анализа были выделены две группы белков: группа белка CLPX и группа белка HSLU. На дереве наглядно показаны примеры как ортологичных, так и паралогичных пар.

Пары ортологов:

CLPX_BURMA и CLPX_POLAC

CLPX_ECTM1 и CLPX_SACD2

CLPX_BARHE и CLPX_ACICJ

HSLU_ECTM1 и HSLU_SACD2

Пары паралогов:

CLPX_BARHE и HSLU_BARHE

CLPX_ECTM1 и HSLU_ECTM1

CLPX_SACD2 и HSLU_SACD2

CLPX_BURMA и HSLU_BURMA

Дерево с цветовой маркировкой групп — **Рис. 3.** Дерево, где можно увидеть ортологические группы.

На Рис. 4 показано дерево с схлопнутыми (collapsed) ортологическими группами. Обе группы содержат последовательности большинства бактерий, что позволяет оценить соответствие реконструкции групп ортологов с филогенией бактерий (сравнение с эталонным деревом):

Утверждение о том, что обе группы (CLPX и HSLU) содержат последовательности всех 7 выбранных бактерий, является неточным. Группа CLPX действительно включает по одной последовательности от каждой из 7 бактерий, что позволяет использовать её для оценки соответствия реконструкции филогенетическим отношениям. Однако группа HSLU представлена только последовательностями от 4 бактерий (BARHE, BURMA, ECTM1, SACD2) и, следовательно, не охватывает все организмы, что ограничивает её применимость для полноценного филогенетического сравнения.

CLPX: реконструкция данной группы не полностью соответствует филогении
HSLU: полностью соответствует рекомендованной филогении.

Дерево с схлопнутыми группами — **Рис. 4.** Дерево, где схлопнуты ортологические группы: группа HSLU (только 4 из 7 бактери1) и группа CLPX (также все бактерии).