pano

Выравнивания последовательностей

Глобальное выравнивание

Во всех разделах, кроме последнего, выравнивания проводились при автоматических значениях обязательных параметров: gap opening penalty = 10.0, gap extension penalty = 0.5.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score Identity (%) Similarity (%) Gaps Indels
tRNA-specific 2-thiouridylase MnmA MNMA_ECOLI MNMA_BACSU 1047.0 53.8 68.8 23 4
Flagellar hook-associated protein 2 FLID_ECOLI FLID_BACSU 355.0 23.8 44.7 68 17
Holo-[acyl-carrier-protein] synthase ACPS_ECOLI ACPS_BACSU 192.0 36.6 52.7 15 3

Локальное выравнивание

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score Identity (%) Similarity (%) Gaps Indels Coverage 1 (%) Coverage 2 (%)
tRNA-specific 2-thiouridylase MnmA MNMA_ECOLI MNMA_BACSU 1060.5 57.0 72.5 6 1 96.5 94.6
Flagellar hook-associated protein 2 FLID_ECOLI FLID_BACSU 364.5 24.4 45.6 60 15 96.6 98.0
Holo-[acyl-carrier-protein] synthase ACPS_ECOLI ACPS_BACSU 194.0 38.4 55.2 11 2 97.6 95.9

Выравнивания случайной пары белков

В качестве случайной пары белков я взял белки с идентификаторами TSAD_ECOLI и THIE_BACSU. Глобальное выравнивание показывает, что это, скорее всего, негомологичные белки (см. табл. 3), так как глобальное выравнивание демонстрирует низкий процент сходства и пространственное несовпадение этих последовательностей (заметно по виду глобального выравнивания – гэпы занимают 79.5% длины, есть большие немногочисленные инделы, и по низкому покрытию локального выравнивания). Оба выравнивания имеют низкий вес.

Таблица 3. Характеристики парных выравниваний случайной пары белков
Program Score Identity (%) Similarity (%) Gaps Indels Coverage TSAD_ECOLI (%) Coverage THIE_BACSU (%)
Local 45.5 26 40 15 (15%) 3 25.5 44.6
Global 33.5 6.5 9.9 369 (79.5%) 7

Множественное выравнивание

Для множественного выравнивания я выбрал мнемонику FLID, которая принадлежит белку, ассоциированному с крюком (flagellar hook-associated protein 2). Крюк – структура в основании свободной части жгутика бактерий. Всего в базе SwissProt есть 17 записей с такой мнемоникой. Из них, помимо принадлежащих Bacillus subtilis и Escherichia coli, я выбрал пять со следующими мнемониками организмов: FLID_BACHD Bacillus haloduranus, FLID_AQUAE Aquifex aeolicus, FLID_AERCA Aeromonas caviae, FLID_TREPA Treponema pallidum и FLID_TREMA Treponema maltophilum. Такой выбор не случаен. Во-первых я выбрал B. haloduranus как представителя того же рода, что и B. subtilis, и тоже живущего в почве (правда, в более щелочной (Takami et al., 2000)). Во-вторых, я выбрал термофильную бактерию A. aeolicus, относящуюся к типу Aquificae, представители которого в большинстве своём экстремофильны и который считается в некоторых работах одной из наиболее рано ответвившихся клад бактерий (но это может быть связано с эффектом, который даёт повышенное содержание G-C пар в геноме термофилов (Gupta, 2014)). A. caviae – возбудитель различных заболеваний человека, обычно эта бактерия встречается у людей с хроническими заболеваниями (Kumar et al., 2012).

И, пожалуй, наиболее интересно было посмотреть в рамках этого выравнивания на белок из бледной трепонемы (T. pallidum) и её родственника – T. maltophilum. Данные бактерии, во-первых, интересны тем, что их жгутик (как и у всех спирохет) находится не снаружи от клетки, а лежит в межмембранном пространстве, что должно накладывать некоторый отпечаток на строение базальной части и крюка, а произошедшие изменения в структуре вероятно отразятся на последовательности и на выравнивании её с таковыми из других организмов. Во-вторых, бледная трепонема живёт в теле человека, находясь в крови и вызывая сифилис. Следовательно, её поверхностные белки-антигены, содержащие эпитопы для человеческих антител, претерпевают изменения в процессе отбора для выхода из-под иммунной атаки хозяина. Казалось бы, жгутик не выходит на поверхность клетки, но работы показывают, что иммунизация кроликов белками жгутика бледной трепонемы влияет, хоть и не очень понятным образом, на развитие заболевания и характер течения и смены периодов (патогенез сифилиса включает несколько хорошо дифференцируемых этапов) (Champion et al., 1990). Иммуннизация кроликов в более новых работах плазмидой, содержащей ген флагеллина (основной структурный белок свободной части жгутика бактерий), показала свою эффективность – иммуннизированные особи показали лучшую иммунную защиту и сниженную бактериальную нагрузку на внутренние органы (Zheng et al., 2018), что может говорить о сохранении роли белков жгутика в формировании иммунного ответа даже в условиях его нахождения под внешней мембраной. Приспособление бактерии к жизни внутри человека также может отразиться на последовательностях белков. T. maltophilum живёт в ротовой полости, является возбудителем перидонтита и в норме не находится в кровяном русле. Интересно сравнить последовательность белка этой бактерии в сравнении с последовательностью из бледной трепонемы.

Для получения множественного выравнивания я воспользовался алгоритмом MUSCLE (MUltiple Sequence Comparison by Log-Expectation) в пакете EMBOSS. Я экспортировал выравнивание в формате fasta, а затем открыл в Jalview и покрасил колонки по проценту идентичности.

В целом, последовательности не сильно схожи, даже между близкими B. subtilis и B. haloduranus. Аминокислоты, общие в одной позиции для всех семи последовательностей встречаются в основном по одной. Таких мест восемь: глицин в 9 позиции, валин в 108, аланин в 112, аспарагин в 191, аланин в 502, валин в 569, глицин в 655 и 675. В одном-единственном случае такой участок полного сходства состоит из двух остатков (тирозин и аспарагин в 572 и 573 позиции соответственно).

Даже немногочисленные единичные позиции, в которых стоит одна и та же аминокислота в нескольких последовательностях, может свидетельствовать о гомологичности этих белков (Koonin, Galperin, 2003). Здесь мы видим несколько таких позиций. Также зрительно можно наблюдать несколько участков, на которых последовательности показывают высокое сходство. Например, участок с 5 по 79 позицию, с 85 по 112, с 517 по 535, с 617 по 625, с 650 по 659 и с 675 по 702. Всё это, на мой взгляд, говорит об общем происхождении этих белков. Участки за пределами этих диапазонов менее консервативны. Во многих случаях остатки в одной позиции сильно различаются по свойствам (например, 59 позиция, 123, 658, 756).

Заметными особенностями данного выравнивания являются большие инсерции в последовательностях белка из трепонем (я считаю, что это инсерции, а не делеции, так как они свойственны представителям рода Treponema, но не другим рассмотренным организмам). Изначально я взял только последовательность из бледной трепонемы, но затем, чтобы сравнить с близким видом и повысить точность выравнивания, так как были сильные различия с другими последовательностями, добавил T. maltophilum. Явно видны очень длинный и более короткий участки последовательности из Treponema pallidum и Treponema maltophilum, соответствующие инделям в пяти других: участок между 240-437 позициями (24% от длины выравнивания) и более короткий – между 448-483 позициями. Инсерции в T. maltophilum короче таковых в T. pallidum, но довольно точно соответствуют отдельным участкам последних. Возможно, такие отличия связаны с какими-то приспособлениями структуры белка к жизни бактерии во внутренней среде человека и некоторых других млекопитающих, а также с изменениями базальных частей жгутика у спирохет. К сожалению, аннотированных записей соответствующего белка из свободноживущих спирохет (которые тоже существуют) нет.

Выравнивание глицин-оксидазы с гомологичным белком

В качестве вероятного гомолога глицин-оксдиазы Geobacillus kaustophilus (GLYOX_GEOKA) я взял глицин-оксидазу бактерии из того же семейства, являющейся важным модельным объектом – Bacillus subtilis (GLYOX_BACSU). Я считаю, что эти белки гомологичны (см. табл. 4), так как глобальное выравнивание наравне с локальным демонстрирует достаточно высокий процент сходства, чтобы можно было говорить об общем происхождении. Высокий вес, всего два крупных инделя, между которыми есть три идентичных остатка, и высокий процент идентичности тоже говорят о гомологии между этими последовательностями.

Таблица 4. Характеристики парных выравниваний глицин-оксидазы из G. kaustophilus и B. subtilis
Program Score Identity (%) Similarity (%) Gaps Indels Coverage GLYOX_GEOKA (%) Coverage GLYOX_BACSU (%)
Local 647.0 38.2 54.4 22 3 97.9 98.4
Global 645.0 37.8 53.9 26 4

Параметры программ needle и water

При запуске программ needle и water без опции -auto они запрашивают два параметра: gap opening penalty (автоматическое значение 10.0) и gap extension penalty (автоматическое значение 0.5). Эти параметры влияют на итоговый вес выравнивания через формулу, в которой за каждую пару аминокислот прибавляется число из соответствующей таблицы, представляющей собой треугольную матрицу попарного сопоставления всех 20 аминокислот, за каждое открытие гэпа даётся штраф (gap opening penalty) и даётся штраф за каждое дальнейшее продление индела (gap extension penalty).

Изменение этих параметров может сказаться на выравнивании последовательностей с большими инсерциями/делециями. Я взял для примера пары белков из раздела про множественное выравнивание, где в рассмотренных последовательностях были обнаружены значительные различия в последовательностях белков двух видов трепонем между собой и относительно пяти других последовательностей (см. выше). Я буду считать множественное выравнивание более достоверным, так как там мы рассматриваем пару белков между собой и относительно пяти других гомологичных одновременно. Я думаю, что уменьшение штрафа за продление гэпа будет эффективно в обнаружении делеций, исключая ложные варианты, которые будут иметь больший вес при высоком штрафе за продление.

Глобальное выравнивание белка из Treponema pallidum (FLID_TREPA) и Bacillus subtilis (FLID_BACSU) с параметрами gap_penalty: 5.0, extend_penalty: 0.5 включает в себя большое количество инделов и гэпов, хотя, как показало множественное выравнивание, между этими последовательностями, видимо, существует два крупных инделя (в последовательности B. subtilis), один из которых очень длинный. В локальном выравнивании ситуация примерно такая же. Изменение парметров gap_penalty: 20.0, extend_penalty: 0.05 даёт уже более похожую картину в глобальном выравнивании на результат множественного выравнивания: теперь видны несколько длинных инделов в первых двух третях выравнивания, примерно соответсвующих по положению длинной инсерции в последовательности белка из T. pallidum, видной на множественном выравнивании. Программа "не боится" продолжать инделы, так как штраф за них маленький, поэтому, я думаю, при таких параметрах выявляются длинные делеции/инсерции. При автоматических параметрах выравнивания его структура представляет собой что-то среднее по количеству и длине инделов между двумя описанными вариантами. При этом выравнивание с первым набором параметров имеет в два раза больший вес, чем два других.

Список литературы

  1. Champion C. I., Miller J. N., Borenstein L. A., Lovett M. A., Blanco D. R. (1990) Immunization with Treponema pallidum endoflagella alters the course of experimental rabbit syphilis // Infection and Immunity, 58 (9), 3158-3161.
  2. Gupta R.S. (2014) The Phylum Aquificae // Rosenberg E., DeLong E.F., Lory S., Stackebrandt E., Thompson F. The Prokaryotes. Springer, Berlin, Heidelberg.
  3. Koonin E.V., Galperin M.Y. (2003) Sequence - Evolution - Function. Computational Approaches in Comparative Genomics // Boston: Kluwer Academic.
  4. Kumar S., Mukhopadhyay P., Chatterjee M., Bandyopadhyay M. K., Bandyopadhyay M., Ghosh T., Samaddar D. (2012) Necrotizing fasciitis caused by Aeromonas caviae // Avicenna journal of medicine, 2(4), 94–96.
  5. Takami H., Nakasone K., Takaki Y., Maeno G., Sasaki R., Masui N., Fuji F., Hirama C., Nakamura Y., Ogasawara N., Kuhara S., Horikoshi, K. (2000) Complete genome sequence of the alkaliphilic bacterium Bacillus halodurans and genomic sequence comparison with Bacillus subtilis // Nucleic acids research, 28(21), 4317–4331.
  6. Zheng K., Xu M., Xiao Y., Luo H., Xie Y., Yu J., Tan M., Li Y., Zhao F., Zeng T., Wu Y. (2018) Immunogenicity and protective efficacy against Treponema pallidum in New Zealand rabbits immunized with plasmid DNA encoding flagellin // Emerging microbes & infections, 7(1).