Во всех разделах, кроме последнего, выравнивания проводились при автоматических значениях обязательных параметров: gap opening penalty = 10.0, gap extension penalty = 0.5.
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков | |||||||
Protein Name | ID 1 | ID 2 | Score | Identity (%) | Similarity (%) | Gaps | Indels |
tRNA-specific 2-thiouridylase MnmA | MNMA_ECOLI | MNMA_BACSU | 1047.0 | 53.8 | 68.8 | 23 | 4 |
Flagellar hook-associated protein 2 | FLID_ECOLI | FLID_BACSU | 355.0 | 23.8 | 44.7 | 68 | 17 |
Holo-[acyl-carrier-protein] synthase | ACPS_ECOLI | ACPS_BACSU | 192.0 | 36.6 | 52.7 | 15 | 3 |
Таблица 2. Характеристики локального парного выравнивания трёх пар белков | |||||||||
Protein Name | ID 1 | ID 2 | Score | Identity (%) | Similarity (%) | Gaps | Indels | Coverage 1 (%) | Coverage 2 (%) |
tRNA-specific 2-thiouridylase MnmA | MNMA_ECOLI | MNMA_BACSU | 1060.5 | 57.0 | 72.5 | 6 | 1 | 96.5 | 94.6 |
Flagellar hook-associated protein 2 | FLID_ECOLI | FLID_BACSU | 364.5 | 24.4 | 45.6 | 60 | 15 | 96.6 | 98.0 |
Holo-[acyl-carrier-protein] synthase | ACPS_ECOLI | ACPS_BACSU | 194.0 | 38.4 | 55.2 | 11 | 2 | 97.6 | 95.9 |
В качестве случайной пары белков я взял белки с идентификаторами TSAD_ECOLI и THIE_BACSU. Глобальное выравнивание показывает, что это, скорее всего, негомологичные белки (см. табл. 3), так как глобальное выравнивание демонстрирует низкий процент сходства и пространственное несовпадение этих последовательностей (заметно по виду глобального выравнивания – гэпы занимают 79.5% длины, есть большие немногочисленные инделы, и по низкому покрытию локального выравнивания). Оба выравнивания имеют низкий вес.
Таблица 3. Характеристики парных выравниваний случайной пары белков | |||||||
Program | Score | Identity (%) | Similarity (%) | Gaps | Indels | Coverage TSAD_ECOLI (%) | Coverage THIE_BACSU (%) |
Local | 45.5 | 26 | 40 | 15 (15%) | 3 | 25.5 | 44.6 |
Global | 33.5 | 6.5 | 9.9 | 369 (79.5%) | 7 | – | – |
Для множественного выравнивания я выбрал мнемонику FLID, которая принадлежит белку, ассоциированному с крюком (flagellar hook-associated protein 2). Крюк – структура в основании свободной части жгутика бактерий. Всего в базе SwissProt есть 17 записей с такой мнемоникой. Из них, помимо принадлежащих Bacillus subtilis и Escherichia coli, я выбрал пять со следующими мнемониками организмов: FLID_BACHD Bacillus haloduranus, FLID_AQUAE Aquifex aeolicus, FLID_AERCA Aeromonas caviae, FLID_TREPA Treponema pallidum и FLID_TREMA Treponema maltophilum. Такой выбор не случаен. Во-первых я выбрал B. haloduranus как представителя того же рода, что и B. subtilis, и тоже живущего в почве (правда, в более щелочной (Takami et al., 2000)). Во-вторых, я выбрал термофильную бактерию A. aeolicus, относящуюся к типу Aquificae, представители которого в большинстве своём экстремофильны и который считается в некоторых работах одной из наиболее рано ответвившихся клад бактерий (но это может быть связано с эффектом, который даёт повышенное содержание G-C пар в геноме термофилов (Gupta, 2014)). A. caviae – возбудитель различных заболеваний человека, обычно эта бактерия встречается у людей с хроническими заболеваниями (Kumar et al., 2012).
И, пожалуй, наиболее интересно было посмотреть в рамках этого выравнивания на белок из бледной трепонемы (T. pallidum) и её родственника – T. maltophilum. Данные бактерии, во-первых, интересны тем, что их жгутик (как и у всех спирохет) находится не снаружи от клетки, а лежит в межмембранном пространстве, что должно накладывать некоторый отпечаток на строение базальной части и крюка, а произошедшие изменения в структуре вероятно отразятся на последовательности и на выравнивании её с таковыми из других организмов. Во-вторых, бледная трепонема живёт в теле человека, находясь в крови и вызывая сифилис. Следовательно, её поверхностные белки-антигены, содержащие эпитопы для человеческих антител, претерпевают изменения в процессе отбора для выхода из-под иммунной атаки хозяина. Казалось бы, жгутик не выходит на поверхность клетки, но работы показывают, что иммунизация кроликов белками жгутика бледной трепонемы влияет, хоть и не очень понятным образом, на развитие заболевания и характер течения и смены периодов (патогенез сифилиса включает несколько хорошо дифференцируемых этапов) (Champion et al., 1990). Иммуннизация кроликов в более новых работах плазмидой, содержащей ген флагеллина (основной структурный белок свободной части жгутика бактерий), показала свою эффективность – иммуннизированные особи показали лучшую иммунную защиту и сниженную бактериальную нагрузку на внутренние органы (Zheng et al., 2018), что может говорить о сохранении роли белков жгутика в формировании иммунного ответа даже в условиях его нахождения под внешней мембраной. Приспособление бактерии к жизни внутри человека также может отразиться на последовательностях белков. T. maltophilum живёт в ротовой полости, является возбудителем перидонтита и в норме не находится в кровяном русле. Интересно сравнить последовательность белка этой бактерии в сравнении с последовательностью из бледной трепонемы.
Для получения множественного выравнивания я воспользовался алгоритмом MUSCLE (MUltiple Sequence Comparison by Log-Expectation) в пакете EMBOSS. Я экспортировал выравнивание в формате fasta, а затем открыл в Jalview и покрасил колонки по проценту идентичности.
В целом, последовательности не сильно схожи, даже между близкими B. subtilis и B. haloduranus. Аминокислоты, общие в одной позиции для всех семи последовательностей встречаются в основном по одной. Таких мест восемь: глицин в 9 позиции, валин в 108, аланин в 112, аспарагин в 191, аланин в 502, валин в 569, глицин в 655 и 675. В одном-единственном случае такой участок полного сходства состоит из двух остатков (тирозин и аспарагин в 572 и 573 позиции соответственно).
Даже немногочисленные единичные позиции, в которых стоит одна и та же аминокислота в нескольких последовательностях, может свидетельствовать о гомологичности этих белков (Koonin, Galperin, 2003). Здесь мы видим несколько таких позиций. Также зрительно можно наблюдать несколько участков, на которых последовательности показывают высокое сходство. Например, участок с 5 по 79 позицию, с 85 по 112, с 517 по 535, с 617 по 625, с 650 по 659 и с 675 по 702. Всё это, на мой взгляд, говорит об общем происхождении этих белков. Участки за пределами этих диапазонов менее консервативны. Во многих случаях остатки в одной позиции сильно различаются по свойствам (например, 59 позиция, 123, 658, 756).
Заметными особенностями данного выравнивания являются большие инсерции в последовательностях белка из трепонем (я считаю, что это инсерции, а не делеции, так как они свойственны представителям рода Treponema, но не другим рассмотренным организмам). Изначально я взял только последовательность из бледной трепонемы, но затем, чтобы сравнить с близким видом и повысить точность выравнивания, так как были сильные различия с другими последовательностями, добавил T. maltophilum. Явно видны очень длинный и более короткий участки последовательности из Treponema pallidum и Treponema maltophilum, соответствующие инделям в пяти других: участок между 240-437 позициями (24% от длины выравнивания) и более короткий – между 448-483 позициями. Инсерции в T. maltophilum короче таковых в T. pallidum, но довольно точно соответствуют отдельным участкам последних. Возможно, такие отличия связаны с какими-то приспособлениями структуры белка к жизни бактерии во внутренней среде человека и некоторых других млекопитающих, а также с изменениями базальных частей жгутика у спирохет. К сожалению, аннотированных записей соответствующего белка из свободноживущих спирохет (которые тоже существуют) нет.
В качестве вероятного гомолога глицин-оксдиазы Geobacillus kaustophilus (GLYOX_GEOKA) я взял глицин-оксидазу бактерии из того же семейства, являющейся важным модельным объектом – Bacillus subtilis (GLYOX_BACSU). Я считаю, что эти белки гомологичны (см. табл. 4), так как глобальное выравнивание наравне с локальным демонстрирует достаточно высокий процент сходства, чтобы можно было говорить об общем происхождении. Высокий вес, всего два крупных инделя, между которыми есть три идентичных остатка, и высокий процент идентичности тоже говорят о гомологии между этими последовательностями.
Таблица 4. Характеристики парных выравниваний глицин-оксидазы из G. kaustophilus и B. subtilis | |||||||
Program | Score | Identity (%) | Similarity (%) | Gaps | Indels | Coverage GLYOX_GEOKA (%) | Coverage GLYOX_BACSU (%) |
Local | 647.0 | 38.2 | 54.4 | 22 | 3 | 97.9 | 98.4 |
Global | 645.0 | 37.8 | 53.9 | 26 | 4 | – | – |
При запуске программ needle и water без опции -auto они запрашивают два параметра: gap opening penalty (автоматическое значение 10.0) и gap extension penalty (автоматическое значение 0.5). Эти параметры влияют на итоговый вес выравнивания через формулу, в которой за каждую пару аминокислот прибавляется число из соответствующей таблицы, представляющей собой треугольную матрицу попарного сопоставления всех 20 аминокислот, за каждое открытие гэпа даётся штраф (gap opening penalty) и даётся штраф за каждое дальнейшее продление индела (gap extension penalty).
Изменение этих параметров может сказаться на выравнивании последовательностей с большими инсерциями/делециями. Я взял для примера пары белков из раздела про множественное выравнивание, где в рассмотренных последовательностях были обнаружены значительные различия в последовательностях белков двух видов трепонем между собой и относительно пяти других последовательностей (см. выше). Я буду считать множественное выравнивание более достоверным, так как там мы рассматриваем пару белков между собой и относительно пяти других гомологичных одновременно. Я думаю, что уменьшение штрафа за продление гэпа будет эффективно в обнаружении делеций, исключая ложные варианты, которые будут иметь больший вес при высоком штрафе за продление.
Глобальное выравнивание белка из Treponema pallidum (FLID_TREPA) и Bacillus subtilis (FLID_BACSU) с параметрами gap_penalty: 5.0, extend_penalty: 0.5 включает в себя большое количество инделов и гэпов, хотя, как показало множественное выравнивание, между этими последовательностями, видимо, существует два крупных инделя (в последовательности B. subtilis), один из которых очень длинный. В локальном выравнивании ситуация примерно такая же. Изменение парметров gap_penalty: 20.0, extend_penalty: 0.05 даёт уже более похожую картину в глобальном выравнивании на результат множественного выравнивания: теперь видны несколько длинных инделов в первых двух третях выравнивания, примерно соответсвующих по положению длинной инсерции в последовательности белка из T. pallidum, видной на множественном выравнивании. Программа "не боится" продолжать инделы, так как штраф за них маленький, поэтому, я думаю, при таких параметрах выявляются длинные делеции/инсерции. При автоматических параметрах выравнивания его структура представляет собой что-то среднее по количеству и длине инделов между двумя описанными вариантами. При этом выравнивание с первым набором параметров имеет в два раза больший вес, чем два других.