Выравнивание как отражение эволюции. JalView

Выравнивание

В таблице 1 приведены основные данные белков, для которых выполнялись задания.

Entry Entry name Protein names Length Organism Superkingdom

Q07US6 DNAK_RHOP5 Chaperone protein DnaK (HSP70) 633 Rhodopseudomonas palustris (strain BisA53) Bacteria

A1T2S3 DNAK_MYCVP Chaperone protein DnaK (HSP70) 622 Mycobacterium vanbaalenii (strain DSM 7251 / PYR-1) Bacteria

O65719 HSP7C_ARATH Heat shock 70 kDa protein 3 649 Arabidopsis thaliana (Mouse-ear cress) Eukaryota

P27541 HSP70_BRUMA Heat shock 70 kDa protein 644 Brugia malayi (Filarial nematode worm) Eukaryota

Q9HRY2 DNAK_HALSA Chaperone protein DnaK (HSP70) 629 Halobacterium salinarum (strain ATCC 700922 / JCM 11081 / NRC-1) (Halobacterium halobium) Archaea

Q97BG8 DNAK_THEVO Chaperone protein DnaK (HSP70) 613 Thermoplasma volcanium (strain ATCC 51530 / DSM 4299 / JCM 9571 / NBRC 15438 / GSS1) Archaea

Таблица 1.Основные данные.

Ниже приведено выравнивание (программа JalView, Tcoffee with Defaults) последовательностей белков с раскраской по схеме ClustalX с условием Identity Threshold = 100%. На рисунке 1 приведена часть выравнивания (для просмотра его целиком щелкните на картинку или скачайте файл). Помимо выравнивания была добавлена новая строка разметки (identity 80%, plurality 100%, gaps), в которой было отмечено по три примера разных типов консервативности: консервативных на 80% или более (C), абсолютно функционально консервативных (F), позиций с гэпами (G).

Рисунок 1. Выравнивание и разметка.

С помощью команды infoalign пакета EMBOSS были посчитаны следующие параметры выравнивания: Name-SeqLen (имя и длина последовательности), AlignLen (длина выравнивания), GapLen (число гэпов), % (процент гэпов от длины выравнивания), Ident (число идентичных позиций), Similar (число похожих на идентичные позиций), % (процент суммы идентичных и похожих на них позиций от длины выравнивания). Данные были получены для консервативности и функциональной консервативности 100% (таблицы 2 и 3) и более 70% (таблицы 4 и 5). Функционально консервативной считается позиция, в которой стоят только аминокислотные остатки со схожими свойствами (схожими функциональными группами). Например, ароматические аминокислоты (триптофан, тирозин, фенилаланин) или аминокислоты с аминогруппой в раликале (аргинин, лизин). Удивителельно, что при функциональной консервативности 100% у последовательностей отличается число идентичных позиций. Однако так выдает программа. Но если прибавить к этим значениям значения колонки Similar, то процент везде будет одинаков. Видимо, так и надо сделать.

Name-SeqLen AlignLen GapLen % Ident Similar %

DNAK_MYCVP_1-622 692 70 10,12 169 0 24,42

DNAK_RHOP5_1-633 692 59 8,53 169 0 24,42

HSP70_BRUMA_1-644 692 48 6,94 169 0 24,42

HSP7C_ARATH_1-649 692 43 6,21 169 0 24,42

DNAK_HALSA_1-629 692 63 9,1 169 0 24,42

DNAK_THEVO_1-613 692 79 11,42 169 0 24,42

Name-SeqLen AlignLen GapLen % Ident Similar %

DNAK_MYCVP_1-622 692 70 10,12 255 24 40,32

DNAK_RHOP5_1-633 692 59 8,53 256 23 40,32

HSP70_BRUMA_1-644 692 48 6,94 234 45 40,32

HSP7C_ARATH_1-649 692 43 6,21 234 45 40,32

DNAK_HALSA_1-629 692 63 9,1 241 38 40,32

DNAK_THEVO_1-613 692 79 11,42 241 38 40,32

Таблица 2.Параметры при консервативности 100%. Таблица 3.Параметры при функциональной консервативности 100%.

Name-SeqLen AlignLen GapLen % Ident Similar %

DNAK_MYCVP_1-622 692 70 10,12 304 17 46,39

DNAK_RHOP5_1-633 692 59 8,53 306 17 46,68

HSP70_BRUMA_1-644 692 48 6,94 285 19 43,93

HSP7C_ARATH_1-649 692 43 6,21 281 21 43,64

DNAK_HALSA_1-629 692 63 9,1 290 24 45,38

DNAK_THEVO_1-613 692 79 11,42 278 29 44,36

Name-SeqLen AlignLen GapLen % Ident Similar %

DNAK_MYCVP_1-622 692 70 10,12 320 44 52,6

DNAK_RHOP5_1-633 692 59 8,53 314 44 51,73

HSP70_BRUMA_1-644 692 48 6,94 296 68 52,6

HSP7C_ARATH_1-649 692 43 6,21 302 63 52,75

DNAK_HALSA_1-629 692 63 9,1 291 55 50

DNAK_THEVO_1-613 692 79 11,42 285 62 50,14

Таблица 4.Параметры при консервативности 70%. Таблица 5.Параметры при функциональной консервативности 70%.

В таблице 5 представлены сводные данные (для значений при консервативности 70% взяты средние значения параметров с уже прибавленными значениями столбца Similar).

AlignLen GapLen % Identity

identity 100% % plurality 100% % identity 70% % plurality 70% %

692 60,33 8,72 169 24,42 279 40,32 311,18 45,06 357,33 51,64

AlignLen	GapLen	%	Identity
identity 100%	%	plurality 100%	%	identity 70%	%	plurality 70%	%
692	60,33	8,72	169	24,42	279	40,32	311,18	45,06	357,33	51,64

Таблица 6. Сводные данные по выравниванию.

Ссылки: весь проект (выравнивание из задания 1, автоматическое и исправленное выравнивания из задания 2) можно скачать по ссылке.

Эволюция

Чтобы посмотреть, как может со временем меняться последовательность белка, был симулирован процесс эволюции. Симуляция состояла в том, что с помощью команды msbar пакета EMBOSS в последовательность вносились мутации всех типов, кроме блоковых (см. скрипт по ссылке). Каждый следующий раз (следующее "поколение") для мутации бралась предыдущая последовательность (предыдущее "поколение"). Таким образом я получила 10 поколений (в первых семи вносилось по 7 мутаций, в остальных по 8). Полученные последовательность (см. ссылку) были импортированы в программу JalView, после чего выровнены (все той же программой Tcoffee with Defaults) и раскрашены по схеме ClustalX с условием Identity Threshold = 100%. В качестве эволюционирующей последовательности были взяты первые 100 аминокислот белка теплового шока с ID O65719 (я уже работала с ним в первом задании).

Рисунок 2. Автоматическое выравнивание.

Однако, полученное выравнивание не всегда соответствует эволюции (самому вероятному ее варианту). Ниже приведен список мест, которые скорее всего ей не соответствуют.

Исправление мест, где выравнивание не соответствует эволюции:

Поз 55-58: сдвиг трех аминокислот вправо (и удаление гэпа на 58 позиции). Эти 3 аминокислоты совпадают с таковыми на позициях 56-58, поэтому логично предположить, что на позиции 55 произошла вставка, из-за чего в первой последовательности должен быть гэп.
Поз. 77: сдвиг аланина на позицию вправо. Весь столбец 78 состоит из аланинов, поэтому логично и аланин в первой последоватльности передвинуть в этот столбец, тем более, что число гэпов и их длина от этого не меняются.
Поз. 93: сдвиг всех изолейцинов с пятого и далее поколений на 1 позицию вправо, и, вытекающий из этого сдвиг аргининов из 97 позиции в 98. При такой перестановке получается еще 2 абсолютно консервативных позиции, и еще 1 консервативная на 90%.
Поз. 111: сдвиг всех валинов с 7 и далее поколений на 1 позицию вправо. И отсюда перемещение следующих за валином лизина в 113 поз и добавление гэпа в 114 позицию (все в тех же поколениях). Тут все не так очевидно. Потому что при такой перестановке из 1 гэпа получается 2, что не хорошо. Плюс замена изолейцина на валин - вполне вероятна, ведь они входят в одну функциональную группу. Так что тут несоответствие не столь очевидное, но я все же исправила.
Поз. 122-123: с 6 и далее поколений глутамины поменяны местами с гэпами. Получается позиция, консервативная на 90%, а число гэпов не меняется.

И само исправленное выравнивание можно увидеть на рисунке 3 (на сей раз выравнивание раскрашено по схеме ClustalX без порога)

Рисунок 3. Исправленное выравнивание.

Первые 10 мутаций:

Поз. 2: вставка серина в третьем и далее поколениях.
Поз. 8: вставка глутамата в третьем и далее поколениях.
Поз. 11: вставка изолейцина во втором и далее поколениях.
Поз. 17: вставка аспартата во втором и далее поколениях.
Поз. 21: вставка лизина в четвортом и далее поколениях.
Поз. 28: вставка глутамата в четвертом и далее поколениях.
Поз. 30: вставка тирозина во втором и далее поколениях.
Поз. 32: делеция глутамина седьмом и далее поколениях.
Поз. 34: делеция аспартата в седьмом и далее поколениях.
Поз. 34: вставка аспартата во втором и далее поколениях.

Эволюция нуклеотидной последовательности

Для одного из белков (а именно A1T2S3 - шаперона из Mycobacterium vanbaalenii) была найдена его нуклеотидная последовательность (на сайте NCBI был найден геном бактерии, а из нее вырезан соответствующий фрагмент последовательности - ID белка: WP_011777910.1). Далее так же, как и в предыдущем задании были проведены 10 раундов мутаций (только в этот раз везде сновилось по 6 штук). Полученные последовательности были транскрибированы с помощью команды transeq покета EMBOSS и объединены в 1 файл (см. скрипт). Далее последовательности были импортированы в Jalview, выровнены (с помощью Tcoffee with Defaults) и выравнивание раскрашено по схеме ClustalX с условием Identity Threshold = 50%. Ниже представлен фрагмент выравнивания, чтобы увидеть его целиком - щелкните на изображение.

Рисунок 4. Выравнивание нуклеотидных последовательностей.

На приведенном фрагменте видно, что выравнивание здесь работает куда хуже, чем в случае с аминокислотными последовательностями (чтобы удостовериться в этом, можете посмотреть на таблицы 7 и 8). На нем также видно, что последовательности разбиваются на группы, местами абсолютно совпадающие без всяких гэпов (как показано на рисунке 5). Сильные различия (куда сильнее, чем в случае с аминокислотными последовательностями) объясняются, скорее всего, тем, что происходит сдвиг рамки считывания (из-за делеции нуклеотида или, наоборот, его вставки). В этом случае понятно, что не имеет смысла выравнивание по местами случайно совпадающих аминокислот, и, следовательно, добавление кучи гэпов. Гигантские изменения могла вызвать всего 1 мутация, что означает, что крайне низкие значения консервативности тоже мало что значат (и точно не значат, что это кардинально разные последовательности). Я исправила выравнивание (точнее заново выровняла - потому что поменялся принцип выравнивания, теперь цель - совместить одинаковые фрагменты последовательностей, игнорируя то, что между ними не совпадает), ниже приведен фрагмент этого выравнивания - тот же, что и на рисунке 4 (чтобы посмотреть полное выравнивание щелкните на рисунок 5 или скачайте файл).

Name-SeqLen AlignLen GapLen % Ident %

NC_008726.1_0_1-623 636 13 2,04 76 11,95

NC_008726.1_1_1-624 636 12 1,89 54 8,49

NC_008726.1_2_1-624 636 12 1,89 56 8,81

NC_008726.1_3_1-625 636 11 1,73 118 18,55

NC_008726.1_4_1-626 636 10 1,57 112 17,61

NC_008726.1_5_1-628 636 8 1,26 117 18,4

NC_008726.1_6_1-629 636 7 1,1 109 17,14

NC_008726.1_7_1-630 636 6 0,94 106 16,67

NC_008726.1_8_1-632 636 4 0,63 66 10,38

NC_008726.1_9_1-633 636 3 0,47 101 15,88

NC_008726.1_10_1-634 636 2 0,31 70 11,01

# Name GapLen GapLen % Ident Similar %

NC_008726.1_0_1-623 636 13 2,04 57 26 13,05

NC_008726.1_1_1-624 636 12 1,89 54 20 11,64

NC_008726.1_2_1-624 636 12 1,89 61 16 12,11

NC_008726.1_3_1-625 636 11 1,73 110 7 18,4

NC_008726.1_4_1-626 636 10 1,57 93 13 16,67

NC_008726.1_5_1-628 636 8 1,26 99 12 17,45

NC_008726.1_6_1-629 636 7 1,1 84 23 16,82

NC_008726.1_7_1-630 636 6 0,94 99 20 18,71

NC_008726.1_8_1-632 636 4 0,63 79 26 16,51

NC_008726.1_9_1-633 636 3 0,47 83 19 16,04

NC_008726.1_10_1-634 636 2 0,31 77 19 15,09

Таблица 7.Параметры при консервативности 70%. Таблица 8.Параметры при функциональной консервативности 70%.

Рисунок 5. Исправленное выравнивание.

Первые 10 мутаций в этих последовательностях (с позиции 13 и далее, начиная с p3) как раз объясняются сдвигом рамки считывания (то есть на самом деле только одной мутацией): к изначальной последовательности AAC UCA... - которая соответствует аминокислотам N и S, добавился нуклеотид G, и получившаяся последовательность GAA CUC A... - как раз соответствует аминокислотам E, L, R...

Рисунок 6. Начало исправленного выравнивания - первые мутации.

Контрпримеры

1) "Последовательность белка обычно под стабилизирующем отбором, т.е. отбор действует против мутаций а.к.о"

В книге А. Маркова "Рождение сложности" (Глава 7. Управляемые мутации, раздел "Частота мутаций под контролем") описывается SOS-response бактерий, при котором они намеренно увеличивают частоту появления мутаций. Делают они это в экстренных условиях для повышения разнообразия и, следовательно, вероятности, что как-то удачный мутант выживет. В числе включающихся SOS-генов есть ген dinB, который кодирует склонную к ошибкам ДНК-полимеразу, которая и отвечает за увеличение частоты мутирования. В той же книге в следующем разделе - "Целенаправленное создание новых генов" - рассматривается еще более известный процесс - внесение мутаций в гены антител в В-лимфацитах (или соматическое гипермутирование). В обоих случаях клетки находятся под давлением отбора (немутировавшие бактерии умирают, неподходящие лимфоциты уничтожаются), который никак не действует против мутаций.

2) "Мутации происходят постоянно и случайно"

Контрпримером может служить все то же соматическое гипермутирование. Все в той же книге описан его механизм:"Он [этот процесс] идет под контролем специальных ферментов и имеет отчасти "закономерный", а отчасти "случайный" характер. Ключевую роль играет особый фермент — цитидин-дезаминаза, который атакует нуклеотиды Ц (цитозины) в V-области гена антитела и превращает их в урацилы (У). Как мы помним, урацил в норме входит в состав РНК, но не ДНК. Присутствие урацила в цепи ДНК служит "сигналом тревоги" для ферментов, осуществляющих репарацию — починку поврежденных участков ДНК. Эти ферменты находят урацил и начинают "исправлять ошибку". При этом они вырезают вокруг урацила довольно большой кусок ДНК (длиной до 60 нуклеотидов), а потом восстанавливают его, но делают это очень неаккуратно. В результате такой неточной починки вокруг того места, где находился урацил, возникает множество мутаций." То есть с одной стороны, мутации в итоге вносятся случайно, с другой стороны, их появление не случайно, они появляются только в определенных местах, и изначально изменяются только цитозины. Все это не случайно.

3)"Только мутации в половых клетках наследуются"

В этом предложении содержится два утверждения, к одному из которых точно можно привести контрпример - в половых клетках наследуются не только мутации. В "Рождении сложности" в главе 7 ("Наследуются ли приобретенные признаки?") разобраны несколько вариантов эпигенетического наследования - наследования признаков без мутирования генетического материала. Это и метилирование дочерней ДНК, и состав материнских матричных РНК в яйцеклетке (а потом и в зиготе), и другие механизмы.
Ко второму утверждению - мутации только в половых клетках наследуются - также можно найти контрпример в "Рождении сложности", в главе 3 ("Великий симбиоз"). В разделе "Лучшее — детям: как клопы кормят свое потомство ценными симбионтами" разбирается случай насекомых (тлей и щитников) и их симбионтов (бактерий), эволюционировавших параллельно. У обоих групп насекомых симбионты передаются по наследству - от матери к потомству, то есть новое поколение наследует симбионтов с их изменениями генетического материала. И наследование это очень строгое - личинки без симбионтов гораздо менее жизнеспособны и между особями симбионты не передаются. А абсолютная синхронность эволюции хозяев и симбионтов и вовсе заставляет задать вопрос: изменение насекомого заставляло менться бактерию, или наоборот, изменения в бактерии меняли ее хозяина? Но всяко связь между ними очень крепка. Так что можно это рассматривать как раз как наследование мутаций не в половых клетках.

4) "В гомологичных последовательностях живущих сегодня организмов мы видим почти исключительно мутации, прошедшие отбор"

За исключением уже рассмотренных выше случаев, тут стоит упомянуть следующее. Безусловно, при наличии отбора, сохранятся будут только те мутации, которые этот отбор поддержит. Однако отбор, скорее всего, действует не на весь геном, ведь гены - на которые как раз действует отбор - занимают лишь очень малую его часть (у эукариот), а что собой представляет остальной геном - не очень понятно. Предпологается, что помимо многочисленных сигнальных последовательностей в нем есть и просто "мусор", занесенный нам, например, вирусами. На эти участки генома не будет действовать отбор, соответственно мутации не будут отсеиваться.

5)"Для белков есть проверка: сходство структур"

Сходство структур далеко не всегда означает гомологию. Примером могут служить так называемые "белки скользящего зажима" - структуры, которые увеличивают процессивность ДНК-полимераз, обхватывая их и ДНК (и таким образом не давая полимеразе слететь с ДНК). Белки с такой функцией есть и у вирусов, и у бактерий, и у архей, и у эукариот, и все они имеют очень похожую структуру (что объясняется четко заданными необходимыми свойствами, а также крайней важностью белка, которая отсеивает все хоть сколько-нибудь неудачные мутации). Однако далеко не все они являются гомологами:"The T4 bacteriophage also uses a sliding clamp, called gp45 that is a trimer similar in structure to PCNA but lacks sequence homology to either PCNA or the bacterial beta clamp" - [1]. Гомологами также не являются beta clamp бактерий и PCNA:"Even though the E. coli sliding clamp (beta) has only two subunits and shares little sequence homology with the eukaryotic sliding clamp, the overall structures of the beta-clamp and PCNA are quite similar" - [2].

Источники:

НАЗАД ➜

Entry	Entry name	Protein names	Length	Organism	Superkingdom
Q07US6	DNAK_RHOP5	Chaperone protein DnaK (HSP70)	633	Rhodopseudomonas palustris (strain BisA53)	Bacteria
A1T2S3	DNAK_MYCVP	Chaperone protein DnaK (HSP70)	622	Mycobacterium vanbaalenii (strain DSM 7251 / PYR-1)	Bacteria
O65719	HSP7C_ARATH	Heat shock 70 kDa protein 3	649	Arabidopsis thaliana (Mouse-ear cress)	Eukaryota
P27541	HSP70_BRUMA	Heat shock 70 kDa protein	644	Brugia malayi (Filarial nematode worm)	Eukaryota
Q9HRY2	DNAK_HALSA	Chaperone protein DnaK (HSP70)	629	Halobacterium salinarum (strain ATCC 700922 / JCM 11081 / NRC-1) (Halobacterium halobium)	Archaea
Q97BG8	DNAK_THEVO	Chaperone protein DnaK (HSP70)	613	Thermoplasma volcanium (strain ATCC 51530 / DSM 4299 / JCM 9571 / NBRC 15438 / GSS1)	Archaea