Выравнивание последовательностей
Для ряда заданий из данного практикума сначала требовалось выбрать три пары белков из всех аннотированных записей двух протеомов: Escherichia coli (штамм K12) и Bacillus subtilis (штамм 168). Отбор проводился на основе совпадения мнемоник функций в идентификаторах Swiss-Prot средствами электронных таблиц. В итоге были получены следующие пары:
- ZUR (Zinc uptake regulation protein) — белок, контролирующий уровень цинка в клетке [1]:
- TPX (Thiol peroxidase) — тиолпероксидаза, играющая ключевую роль в защите клетки от окислительного стресса [2]:
- NDK (Nucleoside diphosphate kinase) — нуклеозиддифосфаткиназа, обеспечивающая синтез нуклеозидтрифосфатов [3]:
ZUR_ECOLI и ZUR_BACSU
TPX_ECOLI и TPX_BACSU
NDK_ECOLI и NDK_BACSU
Глобальное парное выравнивание гомологичных белков
Для каждой из трёх выбранных пар белков было выполнено глобальное парное выравнивание с помощью программы needle с параметрами по умолчанию. Результаты выравниваний представлены в таблице 1.
| Protein Name | ID 1 | ID 2 | Score | Identity | Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| Zinc uptake regulation protein* | ZUR_ECOLI | ZUR_BACSU | 93.0 | 21.0% | 33.7% | 46 | 9 |
| Thiol peroxidase | TPX_ECOLI | TPX_BACSU | 337.5 | 40.9% | 62.6% | 7 | 4 |
| Nucleoside diphosphate kinase | NDK_ECOLI | NDK_BACSU | 347.0 | 44.7% | 62.0% | 8 | 2 |
*В записи Swiss-Prot для B. subtilis данный белок может иметь иное название Zinc-specific metallo-regulatory protein, в таблицу внесено название, приведённое для E. coli.
Локальное парное выравнивание гомологичных белков
Для тех же трёх пар белков было выполнено локальное парное выравнивание с помощью программы water с параметрами по умолчанию. Результаты выравниваний представлены в таблице 2.
| Protein Name | ID 1 | ID 2 | Score | Identity | Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|
| Zinc uptake regulation protein* | ZUR_ECOLI | ZUR_BACSU | 104.5 | 25.0% | 42.1% | 14 | 5 | 78.9% | 90.3% |
| Thiol peroxidase | TPX_ECOLI | TPX_BACSU | 339.5 | 42.1% | 63.4% | 3 | 2 | 97.6% | 96.4% |
| Nucleoside diphosphate kinase | NDK_ECOLI | NDK_BACSU | 352.0 | 49.3% | 67.6% | 0 | 0 | 95.1% | 91.3% |
*В записи Swiss-Prot для B. subtilis данный белок может иметь иное название Zinc-specific metallo-regulatory protein, в таблицу внесено название, приведённое для E. coli.
Комментарии к выравниваниям
ZUR (белок, контролирующий уровень цинка)
Сравнивая результаты глобального и локального выравнивания для пары с мнемоникой ZUR, можно отметить, что в первом случае процент идентичности кажется довольно небольшим (21,0%). Однако он всё же превышает 20%, что в классическом понимании обычно свидетельствует о гомологичном происхождении белков. Низкий процент сходства (33,7%) и большое количество гэпов (46) тоже могут вызывать вопросы. В таком случае лучше обратиться к локальному выравниванию для лучшего понимания картины.
Как мы видим из его результатов: процент идентичности и сходства незначительно, но всё же выросли (25,0% и 42,1% соответственно), а количество гэпов упало (до 14). Поскольку покрытие обеих последовательностей довольно высокое (78,9% и 90,3%), можно сделать следующий вывод: данные белки скорее всего являются гомологами, однако в них не так много строго консервативных участков, по крайней мере достаточной длины, чтобы локальное выравнивание представило бы их отдельно. Большая часть аминокислотной последовательности после расхождения двух организмов в ходе эволюции претерпела немало изменений (различные мутации, включая инсерции и делеции, что видно из различной длины двух белков). Эти изменения, вероятно, не критичны для основной функции, поскольку какая-то консервативная область (возможно, ответственная за реакционный центр или связывание с субстратом) присутствует в обоих белках. Я бы не сказала, что в данном случае локальное выравнивание более информативно, чем глобальное, однако из-за того, что локальное отрезает более длинные хвосты у белка E. coli, его результаты выглядят более «приятными».
TPX (тиолпероксидаза)
Переходя к следующей паре белков, а именно к тиолпероксидазе, сходу можно заметить довольно хорошие результаты уже при глобальном выравнивании (идентичность — 40,9%, сходство — 62,6%). При обращении к локальному выравниванию видна практически такая же картина (идентичность 42,1%, сходство 63,4%). Ключевым отличием является снижение числа инделей вдвое, что непосредственно связано с обрезанием тех самых концов аминокислотных последовательностей, что довольно часто встречается в локальных выравниваниях из-за меньшей консервативности концевых участков. Покрытие составило 97,6% для E. coli и 96,4% для B. subtilis, то есть практически стопроцентное. Из этого можно сделать вывод, что и здесь локальное выравнивание не несёт особого смысла по сравнению с глобальным. Белки с мнемоникой TPX являются гомологами по всей длине.
NDK (нуклеозиддифосфаткиназа)
Для нуклеозиддифосфаткиназы, так же, как и для предыдущей пары белков, мы видим очень хорошее глобальное выравнивание и почти идентичное локальное. Опять же, как и в случае с тиолпероксидазой, мы можем наблюдать обрезание концевых участков в локальном выравнивании, результатом чего становится полное отсутствие инделей в нём. Это абсолютно точно гомологичные белки, причём по всей длине, для которых локальное выравнивание не является более информативным, чем глобальное.
Результат применения программ выравнивания к неродственным белкам
| Protein Name 1 | Protein Name 2 | ID 1 | ID 2 | Score | Identity | Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|---|
| ADP compounds hydrolase NudE | Sporulation kinase C | NUDE_ECOLI | KINC_BACSU | 12.0 | 0.5% | 0.7% | 598 | 2 |
| Protein Name 1 | Protein Name 2 | ID 1 | ID 2 | Score | Identity | Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|---|
| ADP compounds hydrolase NudE | Sporulation kinase C | NUDE_ECOLI | KINC_BACSU | 27.0 | 36.0% | 52.% | 1 | 1 | 13.4% | 5.6% |
Результаты глобального выравнивания этих двух белков, как видно из таблицы 3, оказались критически низкими: 0,5% идентичности и 0,7% сходства при 598 гэпах. Это как минимум свидетельствует об отсутствии гомологии на всей длине. Кроме того, стоит отметить, что ADP compounds hydrolase NudE более, чем в два раза меньше Sporulation kinase C (186 аминокислот против 428). При обращении к локальному выравниванию (таблица 4) может создаться ошибочное впечатление о присутствии какой-то гомологии (36,0% идентичности и 52,0% сходства). Однако стоит обратить внимание на покрытие (13,4% и 5,6%) и на score (27,0), и становится сразу понятно, что это незначительный участок белка, который с высокой вероятностью можно считать случайной находкой. Белки не являются гомологичными, и это подтверждают оба типа выравнивания.
Множественное выравнивание белков и импорт в Jalview
Для выполнения этого задания с множественным выравниванием была выбрана тиолпероксидаза (мнемоника TPX). С помощью команды infoseq 'sw:TPX_*' -only -name -nohead | wc -l было обнаружено, что этот белок присутствует ещё в 54 организмах. Из них, помимо двух основных, были отобраны ещё пять:
- TPX_ECOLI (белок Escherichia coli)
- TPX_BACSU (белок Bacillus subtilis)
- TPX_CLOPA (белок Clostridium pasteurianum)
- TPX_PASMU (белок Pasteurella multocida)
- TPX_COREF (белок Corynebacterium efficiens)
- TPX_HELPY (белок Helicobacter pylori)
- TPX_OCEIH (белок Oceanobacillus iheyensis)
Для выполнения выравнивания сначала был создан текстовый файл tpx.txt, содержащий список, состоящий из строк следящего формата: sw:TPX_ECOLI. Затем с помощью команды seqret @tpx.txt tpx.fasta этот список был преобразован в формат FASTA. И далее было запущено множественное выравнивание программой muscle:
Полученный файл tpx_alignment.fasta с выравниванием был открыт в программе Jalview для визуального анализа.
Все последовательности, за исключением одного белка, выровнялись хорошо. Излишне короткий фрагмент, принадлежащий Clostridium pasteurianum, был представлен всего 20 аминокислотами, что примерно в 8 раз меньше всех остальных последовательностей, чья длина в среднем составляет 165 а.к. Это наводит на мысль о том, что это лишь участок белка, который по какой-то причине был обнаружен программой вместо полноразмерной версии. Поэтому для дальнейшего анализа данный фрагмент не принимался во внимание, хотя надо отметить, что даже эта короткая последовательность содержит довольно консервативные участки, например, колонки 5–7, 16 и 21–22.
Проанализировав полученное множественное выравнивание (уже без нерепрезентативного фрагмента), можно уверенно говорить о гомологичности данных белков — об этом свидетельствует структура самого выравнивания. Более консервативные участки (например, 21–31, 45–61, 84–100, 130–140) располагаются в основном в середине последовательности, а менее консервативные или неконсервативные (например, 2–20, 123–129, 160–171) находятся у концов белков.
Список литературы
- Mikhaylina A. et al. Bacterial zinc uptake regulator proteins and their regulons //Biochemical Society Transactions. – 2018. – Т. 46. – №. 4. – С. 983-1001.
- Baker L. M. S., Poole L. B. Catalytic mechanism of thiol peroxidase from Escherichia coli: sulfenic acid formation and overoxidation of essential CYS61 //Journal of Biological Chemistry. – 2003. – Т. 278. – №. 11. – С. 9203-9211.
- Chakrabarty A. M. Nucleoside diphosphate kinase: role in bacterial growth, virulence, cell signalling and polysaccharide synthesis //Molecular microbiology. – 1998. – Т. 28. – №. 5. – С. 875-882.