Выравнивание последовательностей

Для ряда заданий из данного практикума сначала требовалось выбрать три пары белков из всех аннотированных записей двух протеомов: Escherichia coli (штамм K12) и Bacillus subtilis (штамм 168). Отбор проводился на основе совпадения мнемоник функций в идентификаторах Swiss-Prot средствами электронных таблиц. В итоге были получены следующие пары:

  1. ZUR (Zinc uptake regulation protein) — белок, контролирующий уровень цинка в клетке [1]:
  2. ZUR_ECOLI и ZUR_BACSU

  3. TPX (Thiol peroxidase) — тиолпероксидаза, играющая ключевую роль в защите клетки от окислительного стресса [2]:
  4. TPX_ECOLI и TPX_BACSU

  5. NDK (Nucleoside diphosphate kinase) — нуклеозиддифосфаткиназа, обеспечивающая синтез нуклеозидтрифосфатов [3]:
  6. NDK_ECOLI и NDK_BACSU

Глобальное парное выравнивание гомологичных белков

Для каждой из трёх выбранных пар белков было выполнено глобальное парное выравнивание с помощью программы needle с параметрами по умолчанию. Результаты выравниваний представлены в таблице 1.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score Identity Similarity Gaps Indels
Zinc uptake regulation protein* ZUR_ECOLI ZUR_BACSU 93.0 21.0% 33.7% 46 9
Thiol peroxidase TPX_ECOLI TPX_BACSU 337.5 40.9% 62.6% 7 4
Nucleoside diphosphate kinase NDK_ECOLI NDK_BACSU 347.0 44.7% 62.0% 8 2

*В записи Swiss-Prot для B. subtilis данный белок может иметь иное название Zinc-specific metallo-regulatory protein, в таблицу внесено название, приведённое для E. coli.

Локальное парное выравнивание гомологичных белков

Для тех же трёх пар белков было выполнено локальное парное выравнивание с помощью программы water с параметрами по умолчанию. Результаты выравниваний представлены в таблице 2.

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score Identity Similarity Gaps Indels Coverage 1 Coverage 2
Zinc uptake regulation protein* ZUR_ECOLI ZUR_BACSU 104.5 25.0% 42.1% 14 5 78.9% 90.3%
Thiol peroxidase TPX_ECOLI TPX_BACSU 339.5 42.1% 63.4% 3 2 97.6% 96.4%
Nucleoside diphosphate kinase NDK_ECOLI NDK_BACSU 352.0 49.3% 67.6% 0 0 95.1% 91.3%

*В записи Swiss-Prot для B. subtilis данный белок может иметь иное название Zinc-specific metallo-regulatory protein, в таблицу внесено название, приведённое для E. coli.

Комментарии к выравниваниям

ZUR (белок, контролирующий уровень цинка)

Сравнивая результаты глобального и локального выравнивания для пары с мнемоникой ZUR, можно отметить, что в первом случае процент идентичности кажется довольно небольшим (21,0%). Однако он всё же превышает 20%, что в классическом понимании обычно свидетельствует о гомологичном происхождении белков. Низкий процент сходства (33,7%) и большое количество гэпов (46) тоже могут вызывать вопросы. В таком случае лучше обратиться к локальному выравниванию для лучшего понимания картины.

Как мы видим из его результатов: процент идентичности и сходства незначительно, но всё же выросли (25,0% и 42,1% соответственно), а количество гэпов упало (до 14). Поскольку покрытие обеих последовательностей довольно высокое (78,9% и 90,3%), можно сделать следующий вывод: данные белки скорее всего являются гомологами, однако в них не так много строго консервативных участков, по крайней мере достаточной длины, чтобы локальное выравнивание представило бы их отдельно. Большая часть аминокислотной последовательности после расхождения двух организмов в ходе эволюции претерпела немало изменений (различные мутации, включая инсерции и делеции, что видно из различной длины двух белков). Эти изменения, вероятно, не критичны для основной функции, поскольку какая-то консервативная область (возможно, ответственная за реакционный центр или связывание с субстратом) присутствует в обоих белках. Я бы не сказала, что в данном случае локальное выравнивание более информативно, чем глобальное, однако из-за того, что локальное отрезает более длинные хвосты у белка E. coli, его результаты выглядят более «приятными».

TPX (тиолпероксидаза)

Переходя к следующей паре белков, а именно к тиолпероксидазе, сходу можно заметить довольно хорошие результаты уже при глобальном выравнивании (идентичность — 40,9%, сходство — 62,6%). При обращении к локальному выравниванию видна практически такая же картина (идентичность 42,1%, сходство 63,4%). Ключевым отличием является снижение числа инделей вдвое, что непосредственно связано с обрезанием тех самых концов аминокислотных последовательностей, что довольно часто встречается в локальных выравниваниях из-за меньшей консервативности концевых участков. Покрытие составило 97,6% для E. coli и 96,4% для B. subtilis, то есть практически стопроцентное. Из этого можно сделать вывод, что и здесь локальное выравнивание не несёт особого смысла по сравнению с глобальным. Белки с мнемоникой TPX являются гомологами по всей длине.

NDK (нуклеозиддифосфаткиназа)

Для нуклеозиддифосфаткиназы, так же, как и для предыдущей пары белков, мы видим очень хорошее глобальное выравнивание и почти идентичное локальное. Опять же, как и в случае с тиолпероксидазой, мы можем наблюдать обрезание концевых участков в локальном выравнивании, результатом чего становится полное отсутствие инделей в нём. Это абсолютно точно гомологичные белки, причём по всей длине, для которых локальное выравнивание не является более информативным, чем глобальное.

Результат применения программ выравнивания к неродственным белкам

Таблица 3. Характеристики глобального парного выравнивания неродственных белков
Protein Name 1 Protein Name 2 ID 1 ID 2 Score Identity Similarity Gaps Indels
ADP compounds hydrolase NudE Sporulation kinase C NUDE_ECOLI KINC_BACSU 12.0 0.5% 0.7% 598 2
Таблица 4. Характеристики локального парного выравнивания неродственных белков
Protein Name 1 Protein Name 2 ID 1 ID 2 Score Identity Similarity Gaps Indels Coverage 1 Coverage 2
ADP compounds hydrolase NudE Sporulation kinase C NUDE_ECOLI KINC_BACSU 27.0 36.0% 52.% 1 1 13.4% 5.6%

Результаты глобального выравнивания этих двух белков, как видно из таблицы 3, оказались критически низкими: 0,5% идентичности и 0,7% сходства при 598 гэпах. Это как минимум свидетельствует об отсутствии гомологии на всей длине. Кроме того, стоит отметить, что ADP compounds hydrolase NudE более, чем в два раза меньше Sporulation kinase C (186 аминокислот против 428). При обращении к локальному выравниванию (таблица 4) может создаться ошибочное впечатление о присутствии какой-то гомологии (36,0% идентичности и 52,0% сходства). Однако стоит обратить внимание на покрытие (13,4% и 5,6%) и на score (27,0), и становится сразу понятно, что это незначительный участок белка, который с высокой вероятностью можно считать случайной находкой. Белки не являются гомологичными, и это подтверждают оба типа выравнивания.

Множественное выравнивание белков и импорт в Jalview

Для выполнения этого задания с множественным выравниванием была выбрана тиолпероксидаза (мнемоника TPX). С помощью команды infoseq 'sw:TPX_*' -only -name -nohead | wc -l было обнаружено, что этот белок присутствует ещё в 54 организмах. Из них, помимо двух основных, были отобраны ещё пять:

  1. TPX_ECOLI (белок Escherichia coli)
  2. TPX_BACSU (белок Bacillus subtilis)
  3. TPX_CLOPA (белок Clostridium pasteurianum)
  4. TPX_PASMU (белок Pasteurella multocida)
  5. TPX_COREF (белок Corynebacterium efficiens)
  6. TPX_HELPY (белок Helicobacter pylori)
  7. TPX_OCEIH (белок Oceanobacillus iheyensis)

Для выполнения выравнивания сначала был создан текстовый файл tpx.txt, содержащий список, состоящий из строк следящего формата: sw:TPX_ECOLI. Затем с помощью команды seqret @tpx.txt tpx.fasta этот список был преобразован в формат FASTA. И далее было запущено множественное выравнивание программой muscle:

muscle -align tpx.fasta -output tpx_alignment.fasta

Полученный файл tpx_alignment.fasta с выравниванием был открыт в программе Jalview для визуального анализа.

Все последовательности, за исключением одного белка, выровнялись хорошо. Излишне короткий фрагмент, принадлежащий Clostridium pasteurianum, был представлен всего 20 аминокислотами, что примерно в 8 раз меньше всех остальных последовательностей, чья длина в среднем составляет 165 а.к. Это наводит на мысль о том, что это лишь участок белка, который по какой-то причине был обнаружен программой вместо полноразмерной версии. Поэтому для дальнейшего анализа данный фрагмент не принимался во внимание, хотя надо отметить, что даже эта короткая последовательность содержит довольно консервативные участки, например, колонки 5–7, 16 и 21–22.

Проанализировав полученное множественное выравнивание (уже без нерепрезентативного фрагмента), можно уверенно говорить о гомологичности данных белков — об этом свидетельствует структура самого выравнивания. Более консервативные участки (например, 21–31, 45–61, 84–100, 130–140) располагаются в основном в середине последовательности, а менее консервативные или неконсервативные (например, 2–20, 123–129, 160–171) находятся у концов белков.

Список литературы