Практикум 4

Составление списка гомологичных белков, включающих паралоги

Для выполнения данного практикума были отобраны протеомы следующих бактерий из директории /P/y22/term4/Proteomes (ниже приведены их мнемоники):

Далее необходимо было подготовить эти протеомы для запуска программы blastp, для этого сперва протеомы выбранных бактерий были объединены в один файл следующей командой (вся работа проводилась в отдельной дирректории):

Затем на основе выбранных протеомов была создана локальная база данных для запуска blastp с помщью команды:

После чего наконец был запущен blastp на основе созданной базы данных, в качестве запроса была подана последовательность белка с мнемоникой CLPX_ECOLI (расположена в файле query.fasta), для отбора достоверных гомологичных белков среди отобранных бактерий был поставлен порог на E-value в 0.0001:

В результате был получен следующий список находок (смотри Рис. 1):

Рис. 1. Список находок достоверных гомологичных белков, полученный программой blastp.

Реконструкция и визуализация

После получения списка находок были собраны в один файл fasta-файлы соответствующих последовательностей, после чего было проведено выравнивание программой muscle, на основании которого после перевода в нужный формат .phy при помощи скрипта было построено дерево реконструкции с помощью программы FastME, в качестве модели была взята MtREV, также была использована бутстреп-поддержка (100 реплик), в общем были проведены действия аналогичные таковым во 2 и 3 практикумах. Результат можно увидеть на Рис. 2. Формулу дерева в формате Newick можно посмотреть здесь.

Рис. 2. Реконструкция дерева полученных находок с помощью программы FastME и модели MtREV с использованием бутстреп-поддержки (100 реплик).

На Рис. 3 можно на построенном дереве с помощью разных цветов показаны различные ортологические группы (наборы попарно ортологичных белков, как минимум 4 последовательности в группе), как видно таких выделилось 2 штуки (CLPX - АТФ-связывающая субъединица АТФ-зависимой протеазы Clp, HSLU - АТФазная субъединица АТФ-зависимой протеазы HslU). На дереве также можно наблюдать примере пар ортологов и паралогов:

Рис. 3. Реконструированное дерево полученных находок, где разными цветами указаны различные ортологические группы.

На Рис. 4 выделенные ранее ортологические группы схлопнуты, как уже говорилось таких групп 2, и в обоих группах присутствует последовательность каждой из выбранных 7 бактерий (то есть группы полные), теперь по поводу соответствия реконструкции групп ортологов и филогении бактерий (верная филогения бралась по рекомендации из этого изображения):

Рис. 4. Реконструированное дерево полученных находок, где разные ортологические группы схлопнуты. Таких групп две: группа белка HSLU (включает всех выбранных бактерий) и группа белка CLPX (тоже включает всех бактерий).