Для выполнения данного практикума были отобраны протеомы следующих бактерий из директории /P/y22/term4/Proteomes
(ниже приведены их мнемоники):
Далее для подготовки протеомов к запуску программы blastp все выбранные файлы были объединены в один, используя следующую команду (работа проводилась в отдельной директории):
На основе полученного файла была создана локальная база данных для запуска blastp с помощью команды:
Затем для поиска гомологичных белков был запущен blastp, в качестве запроса использовалась последовательность белка с мнемоникой CLPX_ECOLI (файл query.fasta). Для отбора достоверных находок установлен порог на E-value в 0.0001:
В результате был получен следующий список находок
После получения списка находок были собраны в один файл fasta-файлы соответствующих последовательностей. Затем было проведено множественное выравнивание с помощью программы muscle. Полученное выравнивание было преобразовано в формат .phy (при помощи скрипта), и на его основе построено филогенетическое дерево с использованием программы FastME, модели MtREV и 100 бутстреп-реплик. Действия повторяют схему, использованную в предыдущих практикумах.
На Рис. 3 показано дерево, где разными цветами выделены ортологические группы (наборы попарно ортологичных белков, не менее 4 последовательностей в группе). В данном анализе выделились две группы: группа белка CLPX и группа белка HSLU. Также на дереве видны примеры пар ортологов и паралогов:
На Рис. 4 показано дерево с схлопнутыми (collapsed) ортологическими группами. Обе группы содержат последовательности всех 7 выбранных бактерий, что позволяет оценить соответствие реконструкции групп ортологов с филогенией бактерий (сравнение с эталонным деревом):