Практикум №4

Задание №1. Составление списка гомологичных белков, включающих паралоги.

Поиск гомологов.

Скачав из соответствующего репозитория протеомы выбранных ранее бактерий, я объединил их в единый файл database.fasta, после чего проиндексировал его с помощью следующей команды:

makeblastdb -in database.fasta -dbtype prot -parse_seqids

Далее я с помощью локального запуска blastp нашёл гомологи выданного белка CLPX_ECOLI в сформированной базе данных из протеомов, поставив порог на e-value в 1e-3:

blastp -query P0A6H1.fasta -db database.fasta -out final.tab -evalue 0.001 -outfmt 7

При вожу выдачу программы без заголовка и выравниваний: final.tab.

Задание №2 Реконструкция и визуализация.

После этого я объединил все находки в единый fasta-файл, сохранив при этом в заголовках только идентификаторы.

На онлайн-ресурсе NGPhylogeny я запустил филогенетическую реконструкию дерева, использовав в качестве программы множественного выравнивания MAFFT, а в качестве алгоритма построения дерева - FastME.

При этом алгоритм FastME использовался без опции ''Gamma distributed rates across sites'' (моделирование скорости замен в различных сайтах), поскольку она часто замедляет работу программы и не улучшает её эффективности. В качестве начального дерево было использовано дерево, сконструированное посредством алгоритма BIONJ. Также был использован bootstrap с количеством реплик, равным 100.

Полученное дерево в формате Newick сохранено в файле Output_Tree_finds.nhx.

Данные реконструкции.

Основываясь на предположении, что филогенетическая реконструкция верна, можно найти некоторую информацию о парах ортологов и паралогов.

Таблица 1. Некоторые пары ортологов и паралогов в полученном дереве.
Ортологи Паралоги
CLPX RHOJR и CLPX MYCTU Q0S8C7 RHOJR и Q0S6Y7 RHOJR
FTSH MYCTU и Q47KU4 THEFY Q1AY82 RUBXD и Q1AU05 RUBXD
Q0S8C7 RHOJR и Q82EB8 STRAW Q82QV8 STRAW и Q82EE9 STRAW

Далее я укоренил дерево в среднюю точку и покрасил в различные цвета получившиеся ортологичные группы белков (Рис. 1). Группы, состоящие из небольшого количества ортологов, покрашены в чёрный цвет. Также было добавлено отображение поддержек bootstrap (цифры, приведённые под ветвями).

Sorry!
Рисунок 1. Дерево, построенное в результате выравнивания гомологов Q82EE9 STRAW. Ортологичные группы выделены цветами (синим, зелёным и красным соответственно). Группы с малым количеством ортологов (меньшим или равным трём) выделены чёрным. Цифрами под ветвями обозначено количество реплик, в которых данная ветвь была поддержана (bootstrap-алгоритм).

Далее ортологичные группы были ''схлопнуты'' (Рис. 2).

Sorry!
Рисунок 2. Дерево из Рис. 1, на котором ортологичные группы (с сохранением соответствующих цветов) ''схлопнуты''. В группе, отмеченной красным треугольником, присутствуют все из семи отобранных видов бактерий. При этом она филогенетически соответствует референсному дереву. Все гены данной группы (CLPX, Q1AVT0, Q47MU4) являются ATP-зависимыми протеазами Clp. Зелёная группа включает в себя бактерий с мнемониками RUBXD, BIFLO, RHOJR и STRAW и содержит белки, являющиеся ATP-зависимой протеазой Clp (Q82EB8), субъединицой протеазы Clp (Q0S8C7), ATP-азой из семейства AAA-2 (Q1AU05), неизвестной протеазой (Q8G871). В целом группа не очень хорошо соответствует филогенетическому референсу. Например, группа, состоящая из RHOJR и STRAW, является сестринской, что противоречит референсным данным. Синяя группа представлена всеми мнемониками, исключая RUBXD и RHOJR. При этом все белки группы являются ATP-зависимыми цинковыми металлопротеазами FtsH. Можно предположить, что соответствующий ген был потерян в ходе эволюции у мнемоник, отсутствующих в данной группе. В целом ветка не очень хорошо соответствует референсу: ARTS2 и BIFLO образуют сестринскую группу, как и в референсе, но, например, MYCTU и THEFY, образующие здесь сестринскую группу, на деле являются довольно удалёнными группами.

Кирилл Кузенков, студент второго курса ФББ