Выравнивание как отражение эволюции. JalView

Выравнивание

В таблице 1 приведены основные данные белков, для которых выполнялись задания.

EntryEntry nameProtein namesLengthOrganismSuperkingdom
Q07US6DNAK_RHOP5Chaperone protein DnaK (HSP70) 633Rhodopseudomonas palustris (strain BisA53) Bacteria
A1T2S3DNAK_MYCVPChaperone protein DnaK (HSP70)622Mycobacterium vanbaalenii (strain DSM 7251 / PYR-1) Bacteria
O65719HSP7C_ARATHHeat shock 70 kDa protein 3649Arabidopsis thaliana (Mouse-ear cress) Eukaryota
P27541HSP70_BRUMAHeat shock 70 kDa protein644Brugia malayi (Filarial nematode worm) Eukaryota
Q9HRY2DNAK_HALSAChaperone protein DnaK (HSP70)629Halobacterium salinarum (strain ATCC 700922 / JCM 11081 / NRC-1) (Halobacterium halobium) Archaea
Q97BG8DNAK_THEVOChaperone protein DnaK (HSP70)613Thermoplasma volcanium (strain ATCC 51530 / DSM 4299 / JCM 9571 / NBRC 15438 / GSS1) Archaea

Таблица 1.Основные данные.

Ниже приведено выравнивание (программа JalView, Tcoffee with Defaults) последовательностей белков с раскраской по схеме ClustalX с условием Identity Threshold = 100%. На рисунке 1 приведена часть выравнивания (для просмотра его целиком щелкните на картинку или скачайте файл). Помимо выравнивания была добавлена новая строка разметки (identity 80%, plurality 100%, gaps), в которой было отмечено по три примера разных типов консервативности: консервативных на 80% или более (C), абсолютно функционально консервативных (F), позиций с гэпами (G).

Рисунок 1. Выравнивание и разметка.

С помощью команды infoalign пакета EMBOSS были посчитаны следующие параметры выравнивания: Name-SeqLen (имя и длина последовательности), AlignLen (длина выравнивания), GapLen (число гэпов), % (процент гэпов от длины выравнивания), Ident (число идентичных позиций), Similar (число похожих на идентичные позиций), % (процент суммы идентичных и похожих на них позиций от длины выравнивания). Данные были получены для консервативности и функциональной консервативности 100% (таблицы 2 и 3) и более 70% (таблицы 4 и 5). Функционально консервативной считается позиция, в которой стоят только аминокислотные остатки со схожими свойствами (схожими функциональными группами). Например, ароматические аминокислоты (триптофан, тирозин, фенилаланин) или аминокислоты с аминогруппой в раликале (аргинин, лизин). Удивителельно, что при функциональной консервативности 100% у последовательностей отличается число идентичных позиций. Однако так выдает программа. Но если прибавить к этим значениям значения колонки Similar, то процент везде будет одинаков. Видимо, так и надо сделать.

Name-SeqLenAlignLenGapLen%IdentSimilar%
DNAK_MYCVP_1-6226927010,12169024,42
DNAK_RHOP5_1-633692598,53169024,42
HSP70_BRUMA_1-644692486,94169024,42
HSP7C_ARATH_1-649692436,21169024,42
DNAK_HALSA_1-629692639,1169024,42
DNAK_THEVO_1-6136927911,42169024,42
Name-SeqLenAlignLenGapLen%IdentSimilar%
DNAK_MYCVP_1-6226927010,122552440,32
DNAK_RHOP5_1-633692598,532562340,32
HSP70_BRUMA_1-644692486,942344540,32
HSP7C_ARATH_1-649692436,212344540,32
DNAK_HALSA_1-629692639,12413840,32
DNAK_THEVO_1-6136927911,422413840,32
Таблица 2.Параметры при консервативности 100%.Таблица 3.Параметры при функциональной консервативности 100%.

Name-SeqLenAlignLenGapLen%IdentSimilar%
DNAK_MYCVP_1-6226927010,123041746,39
DNAK_RHOP5_1-633692598,533061746,68
HSP70_BRUMA_1-644692486,942851943,93
HSP7C_ARATH_1-649692436,212812143,64
DNAK_HALSA_1-629692639,12902445,38
DNAK_THEVO_1-6136927911,422782944,36
Name-SeqLenAlignLenGapLen%IdentSimilar%
DNAK_MYCVP_1-6226927010,123204452,6
DNAK_RHOP5_1-633692598,533144451,73
HSP70_BRUMA_1-644692486,942966852,6
HSP7C_ARATH_1-649692436,213026352,75
DNAK_HALSA_1-629692639,12915550
DNAK_THEVO_1-6136927911,422856250,14
Таблица 4.Параметры при консервативности 70%.Таблица 5.Параметры при функциональной консервативности 70%.

В таблице 5 представлены сводные данные (для значений при консервативности 70% взяты средние значения параметров с уже прибавленными значениями столбца Similar).

AlignLenGapLen%Identity
identity 100%%plurality 100%%identity 70%%plurality 70%%
69260,338,7216924,4227940,32311,1845,06357,3351,64

Таблица 6. Сводные данные по выравниванию.

Ссылки: весь проект (выравнивание из задания 1, автоматическое и исправленное выравнивания из задания 2) можно скачать по ссылке.

Эволюция

Чтобы посмотреть, как может со временем меняться последовательность белка, был симулирован процесс эволюции. Симуляция состояла в том, что с помощью команды msbar пакета EMBOSS в последовательность вносились мутации всех типов, кроме блоковых (см. скрипт по ссылке). Каждый следующий раз (следующее "поколение") для мутации бралась предыдущая последовательность (предыдущее "поколение"). Таким образом я получила 10 поколений (в первых семи вносилось по 7 мутаций, в остальных по 8). Полученные последовательность (см. ссылку) были импортированы в программу JalView, после чего выровнены (все той же программой Tcoffee with Defaults) и раскрашены по схеме ClustalX с условием Identity Threshold = 100%. В качестве эволюционирующей последовательности были взяты первые 100 аминокислот белка теплового шока с ID O65719 (я уже работала с ним в первом задании).

Рисунок 2. Автоматическое выравнивание.

Однако, полученное выравнивание не всегда соответствует эволюции (самому вероятному ее варианту). Ниже приведен список мест, которые скорее всего ей не соответствуют.

Исправление мест, где выравнивание не соответствует эволюции:

  1. Поз 55-58: сдвиг трех аминокислот вправо (и удаление гэпа на 58 позиции). Эти 3 аминокислоты совпадают с таковыми на позициях 56-58, поэтому логично предположить, что на позиции 55 произошла вставка, из-за чего в первой последовательности должен быть гэп.
  2. Поз. 77: сдвиг аланина на позицию вправо. Весь столбец 78 состоит из аланинов, поэтому логично и аланин в первой последоватльности передвинуть в этот столбец, тем более, что число гэпов и их длина от этого не меняются.
  3. Поз. 93: сдвиг всех изолейцинов с пятого и далее поколений на 1 позицию вправо, и, вытекающий из этого сдвиг аргининов из 97 позиции в 98. При такой перестановке получается еще 2 абсолютно консервативных позиции, и еще 1 консервативная на 90%.
  4. Поз. 111: сдвиг всех валинов с 7 и далее поколений на 1 позицию вправо. И отсюда перемещение следующих за валином лизина в 113 поз и добавление гэпа в 114 позицию (все в тех же поколениях). Тут все не так очевидно. Потому что при такой перестановке из 1 гэпа получается 2, что не хорошо. Плюс замена изолейцина на валин - вполне вероятна, ведь они входят в одну функциональную группу. Так что тут несоответствие не столь очевидное, но я все же исправила.
  5. Поз. 122-123: с 6 и далее поколений глутамины поменяны местами с гэпами. Получается позиция, консервативная на 90%, а число гэпов не меняется.

И само исправленное выравнивание можно увидеть на рисунке 3 (на сей раз выравнивание раскрашено по схеме ClustalX без порога)

Рисунок 3. Исправленное выравнивание.

Первые 10 мутаций:

  1. Поз. 2: вставка серина в третьем и далее поколениях.
  2. Поз. 8: вставка глутамата в третьем и далее поколениях.
  3. Поз. 11: вставка изолейцина во втором и далее поколениях.
  4. Поз. 17: вставка аспартата во втором и далее поколениях.
  5. Поз. 21: вставка лизина в четвортом и далее поколениях.
  6. Поз. 28: вставка глутамата в четвертом и далее поколениях.
  7. Поз. 30: вставка тирозина во втором и далее поколениях.
  8. Поз. 32: делеция глутамина седьмом и далее поколениях.
  9. Поз. 34: делеция аспартата в седьмом и далее поколениях.
  10. Поз. 34: вставка аспартата во втором и далее поколениях.

Эволюция нуклеотидной последовательности

Для одного из белков (а именно A1T2S3 - шаперона из Mycobacterium vanbaalenii) была найдена его нуклеотидная последовательность (на сайте NCBI был найден геном бактерии, а из нее вырезан соответствующий фрагмент последовательности - ID белка: WP_011777910.1). Далее так же, как и в предыдущем задании были проведены 10 раундов мутаций (только в этот раз везде сновилось по 6 штук). Полученные последовательности были транскрибированы с помощью команды transeq покета EMBOSS и объединены в 1 файл (см. скрипт). Далее последовательности были импортированы в Jalview, выровнены (с помощью Tcoffee with Defaults) и выравнивание раскрашено по схеме ClustalX с условием Identity Threshold = 50%. Ниже представлен фрагмент выравнивания, чтобы увидеть его целиком - щелкните на изображение.

Рисунок 4. Выравнивание нуклеотидных последовательностей.

На приведенном фрагменте видно, что выравнивание здесь работает куда хуже, чем в случае с аминокислотными последовательностями (чтобы удостовериться в этом, можете посмотреть на таблицы 7 и 8). На нем также видно, что последовательности разбиваются на группы, местами абсолютно совпадающие без всяких гэпов (как показано на рисунке 5). Сильные различия (куда сильнее, чем в случае с аминокислотными последовательностями) объясняются, скорее всего, тем, что происходит сдвиг рамки считывания (из-за делеции нуклеотида или, наоборот, его вставки). В этом случае понятно, что не имеет смысла выравнивание по местами случайно совпадающих аминокислот, и, следовательно, добавление кучи гэпов. Гигантские изменения могла вызвать всего 1 мутация, что означает, что крайне низкие значения консервативности тоже мало что значат (и точно не значат, что это кардинально разные последовательности). Я исправила выравнивание (точнее заново выровняла - потому что поменялся принцип выравнивания, теперь цель - совместить одинаковые фрагменты последовательностей, игнорируя то, что между ними не совпадает), ниже приведен фрагмент этого выравнивания - тот же, что и на рисунке 4 (чтобы посмотреть полное выравнивание щелкните на рисунок 5 или скачайте файл).

Name-SeqLenAlignLenGapLen%Ident%
NC_008726.1_0_1-623636132,047611,95
NC_008726.1_1_1-624636121,89548,49
NC_008726.1_2_1-624636121,89568,81
NC_008726.1_3_1-625636111,7311818,55
NC_008726.1_4_1-626636101,5711217,61
NC_008726.1_5_1-62863681,2611718,4
NC_008726.1_6_1-62963671,110917,14
NC_008726.1_7_1-63063660,9410616,67
NC_008726.1_8_1-63263640,636610,38
NC_008726.1_9_1-63363630,4710115,88
NC_008726.1_10_1-63463620,317011,01
# NameGapLenGapLen%IdentSimilar%
NC_008726.1_0_1-623636132,04572613,05
NC_008726.1_1_1-624636121,89542011,64
NC_008726.1_2_1-624636121,89611612,11
NC_008726.1_3_1-625636111,73110718,4
NC_008726.1_4_1-626636101,57931316,67
NC_008726.1_5_1-62863681,26991217,45
NC_008726.1_6_1-62963671,1842316,82
NC_008726.1_7_1-63063660,94992018,71
NC_008726.1_8_1-63263640,63792616,51
NC_008726.1_9_1-63363630,47831916,04
NC_008726.1_10_1-63463620,31771915,09
Таблица 7.Параметры при консервативности 70%.Таблица 8.Параметры при функциональной консервативности 70%.

Рисунок 5. Исправленное выравнивание.

Первые 10 мутаций в этих последовательностях (с позиции 13 и далее, начиная с p3) как раз объясняются сдвигом рамки считывания (то есть на самом деле только одной мутацией): к изначальной последовательности AAC UCA... - которая соответствует аминокислотам N и S, добавился нуклеотид G, и получившаяся последовательность GAA CUC A... - как раз соответствует аминокислотам E, L, R...

Рисунок 6. Начало исправленного выравнивания - первые мутации.

Контрпримеры

1) "Последовательность белка обычно под стабилизирующем отбором, т.е. отбор действует против мутаций а.к.о"

В книге А. Маркова "Рождение сложности" (Глава 7. Управляемые мутации, раздел "Частота мутаций под контролем") описывается SOS-response бактерий, при котором они намеренно увеличивают частоту появления мутаций. Делают они это в экстренных условиях для повышения разнообразия и, следовательно, вероятности, что как-то удачный мутант выживет. В числе включающихся SOS-генов есть ген dinB, который кодирует склонную к ошибкам ДНК-полимеразу, которая и отвечает за увеличение частоты мутирования. В той же книге в следующем разделе - "Целенаправленное создание новых генов" - рассматривается еще более известный процесс - внесение мутаций в гены антител в В-лимфацитах (или соматическое гипермутирование). В обоих случаях клетки находятся под давлением отбора (немутировавшие бактерии умирают, неподходящие лимфоциты уничтожаются), который никак не действует против мутаций.

2) "Мутации происходят постоянно и случайно"

Контрпримером может служить все то же соматическое гипермутирование. Все в той же книге описан его механизм:"Он [этот процесс] идет под контролем специальных ферментов и имеет отчасти "закономерный", а отчасти "случайный" характер. Ключевую роль играет особый фермент — цитидин-дезаминаза, который атакует нуклеотиды Ц (цитозины) в V-области гена антитела и превращает их в урацилы (У). Как мы помним, урацил в норме входит в состав РНК, но не ДНК. Присутствие урацила в цепи ДНК служит "сигналом тревоги" для ферментов, осуществляющих репарацию — починку поврежденных участков ДНК. Эти ферменты находят урацил и начинают "исправлять ошибку". При этом они вырезают вокруг урацила довольно большой кусок ДНК (длиной до 60 нуклеотидов), а потом восстанавливают его, но делают это очень неаккуратно. В результате такой неточной починки вокруг того места, где находился урацил, возникает множество мутаций." То есть с одной стороны, мутации в итоге вносятся случайно, с другой стороны, их появление не случайно, они появляются только в определенных местах, и изначально изменяются только цитозины. Все это не случайно.

3)"Только мутации в половых клетках наследуются"

В этом предложении содержится два утверждения, к одному из которых точно можно привести контрпример - в половых клетках наследуются не только мутации. В "Рождении сложности" в главе 7 ("Наследуются ли приобретенные признаки?") разобраны несколько вариантов эпигенетического наследования - наследования признаков без мутирования генетического материала. Это и метилирование дочерней ДНК, и состав материнских матричных РНК в яйцеклетке (а потом и в зиготе), и другие механизмы.
Ко второму утверждению - мутации только в половых клетках наследуются - также можно найти контрпример в "Рождении сложности", в главе 3 ("Великий симбиоз"). В разделе "Лучшее — детям: как клопы кормят свое потомство ценными симбионтами" разбирается случай насекомых (тлей и щитников) и их симбионтов (бактерий), эволюционировавших параллельно. У обоих групп насекомых симбионты передаются по наследству - от матери к потомству, то есть новое поколение наследует симбионтов с их изменениями генетического материала. И наследование это очень строгое - личинки без симбионтов гораздо менее жизнеспособны и между особями симбионты не передаются. А абсолютная синхронность эволюции хозяев и симбионтов и вовсе заставляет задать вопрос: изменение насекомого заставляло менться бактерию, или наоборот, изменения в бактерии меняли ее хозяина? Но всяко связь между ними очень крепка. Так что можно это рассматривать как раз как наследование мутаций не в половых клетках.

4) "В гомологичных последовательностях живущих сегодня организмов мы видим почти исключительно мутации, прошедшие отбор"

За исключением уже рассмотренных выше случаев, тут стоит упомянуть следующее. Безусловно, при наличии отбора, сохранятся будут только те мутации, которые этот отбор поддержит. Однако отбор, скорее всего, действует не на весь геном, ведь гены - на которые как раз действует отбор - занимают лишь очень малую его часть (у эукариот), а что собой представляет остальной геном - не очень понятно. Предпологается, что помимо многочисленных сигнальных последовательностей в нем есть и просто "мусор", занесенный нам, например, вирусами. На эти участки генома не будет действовать отбор, соответственно мутации не будут отсеиваться.

5)"Для белков есть проверка: сходство структур"

Сходство структур далеко не всегда означает гомологию. Примером могут служить так называемые "белки скользящего зажима" - структуры, которые увеличивают процессивность ДНК-полимераз, обхватывая их и ДНК (и таким образом не давая полимеразе слететь с ДНК). Белки с такой функцией есть и у вирусов, и у бактерий, и у архей, и у эукариот, и все они имеют очень похожую структуру (что объясняется четко заданными необходимыми свойствами, а также крайней важностью белка, которая отсеивает все хоть сколько-нибудь неудачные мутации). Однако далеко не все они являются гомологами:"The T4 bacteriophage also uses a sliding clamp, called gp45 that is a trimer similar in structure to PCNA but lacks sequence homology to either PCNA or the bacterial beta clamp" - [1]. Гомологами также не являются beta clamp бактерий и PCNA:"Even though the E. coli sliding clamp (beta) has only two subunits and shares little sequence homology with the eukaryotic sliding clamp, the overall structures of the beta-clamp and PCNA are quite similar" - [2].

Источники:

  1. А. Марков, "Рождение сложности"
  2. Wikipedia - DNA clamp
  3. NCBI - Loading Clamps for DNA Replication and Repair



НАЗАД ➜
© <Рюмина Екатерина>, 2017