Визуализация гомологов белка

Гомология

Поиска паралогов белка CLPX_ECOLI был произведен в ранее выбранных бактериях, представленных в таблице 1.бактерии:

Таблица 1. Мнемоники бактерий
Вид Мнемоника
Bartonella henselae BARHE
Burkholderia cenocepacia BURCA
Escherichia coli ECOLI
Haemophilus influenzae HAEIN
Polynucleobacter asymbioticus POLAQ
Saccharophagus degradans SACD2
Shewanella denitrificans SHEDO
Yersinia pestis YERPE

Протеомы указанных бактерий были скопированы в файл, на основе которого подготовлена база данных для программы Blast командой:

makeblastdb -in bacs -dbtype prot

Далее среди всех протеомов были найдены совпадения с последовательностью CLPX_ECOLI с E-value не меньше 0.001 командой:

blastp -query CLPX_ECOLI.fasta -db bacs -out output.txt -evalue 0.001

Выдача программы находится тут, краткий список выдачи - тут. Последовательности всех этих белков из Uniprot были выровнены по алгоритму Muscle, выравниванте загружено в MEGA-X. На основе выравнивания по алгоритму максимальной экономии было построено делево, показанное на рисунке 1. Дерево в Newick-формате тут.

Рисунок 1. Полученное дерево

Рисунок 2. Полученное дерево со схлопнутыми группами ортологов

На этом дереве отмечены группы белков с одинаковыми (судя по описаниям) функциями. Сразу отмечу, что укроенение дерева я проеделал вручную для большей наглядности группы белков FTSH.

Ортологи

Итак, теперь стоит описать группы ортологов - гомологичных белки из разных организмов, разошедшихся в процессе видообразования и, чаще всего, выполняющих одну и ту же функцию.

CLPX

Рисунок 3. Дерево с группой ортологов CLPX

Группа белков с мнемоникой CLPX - это АТФ-связывающая субъединица ClpX АТФ-зависимой протеазы Clp, обладающая шаперонной активностью и готовящая субстраты для транслокации в протеазу ClpP. В эту группу вошли представители всех восьми видов выбранных бактерий. Дерево этой группы белков совпадает с филогенией бактерий за исключением двух ветвей - филогенетически HAEIN ближе к ветви (ECOLI, YERPE), а по дереву ортологов CLPX - к SHEDO.

HSLU

Рисунок 4. Дерево с группой ортологов HSLU

Группа белков с мнемоникой HSLU - это АТФ-азная субъединица HslU АТФ-зависимой протеазы, которая, обладая шаперонной активностью, готовит N-конец своих белковых субстратов к гидролизу в HslV, нарушая его третичную сторуктуру. В эту группу вошли представители 7 из 8 видов выбранных бактерий (не оказалось соответствующего белка из Polynucleobacter asymbioticus). Дерево этой группы белков совпадает с филогенией бактерий, за исключением отсутствия одного листа и двух ветвей - филогенетически HAEIN ближе к ветви (ECOLI, YERPE), SHEDO ортологично этой троице; а по дереву ортологов - наоборот, к ветви (ECOLI, YERPE) ближе SHEDO, а HAEIN им ортологична.

FTSH

Рисунок 5. Дерево с группой ортологов FTSH

Группа белков с мнемоникой FTSH - это АТФ-зависимая цинковая металлопротеаза FtsH, учавствующая в контроле качества встраиваемых мембранных белков. В эту группу вошли представители 7 из 8 видов выбранных бактерий (на этот раз не оказалось соответствующего белка из Saccharophagus degradans). Дерево этой группы белков, за исключением отсутствия одного листа, не совпадает с филогенией аналогично дереву по HSLU - листья SHEDO и HAEIN поменяны местами.

Стоит также отметить, что деление этих белков на группы ортологов довольно хорошо заметно и на выдаче Blast - так, битовый счет выравниваний CLPX_ECOLI с другими последовательности из группы CLPX находится в пределах 587-805; из группы HSLU - 82-100; а из группы FTSH и для двух не отнесенных к группам белков - в районе 41-46. Из-за этого можно было бы предположить, что несгруппированные белки A0A2S9PH39_YERPE и RUVB_BARHE тоже стоит отнести к FTSH, но, судя по записям на Uniprot, они выполняют совсем другие функции.

Паралоги

Теперь немного обсудим паралоги в полученном дереве. Напомню, паралоги - это гомологичные белки, принадлежащие одному организму, чаще всего возникающие в результате дупликации гена и расходящиеся в процессе эволюции настолько, что начинают выполнять разные функции. Очевидно, по рис. 1 ввиду гомологии всех рассматриваемых белков найти их очень просто - это любые пары белков с одинаковой мнемоникой вида и разной мнемоникой функции. Например, HSLU_BARHE, CLPX_BARHE, A0A0H3LXZ4_BARHE и RUVB_BARHE - паралоги, как и набор CLPX_YERPE, HSLU_YERPE и A0A5P8YCE6_YERP; или пара белков HSLU_ECOLI и CLPX_ECOLI.