Выравнивание как отражение эволюции. JalView

Вернуться на страницу семестра

Выравнивание белков семейства HSP70

В данной работе мы проводим выравнивание 6 белков семейства HSP70 из эукариот (P11141, O24581), архей (Q6L0S7, A0RZ01), бактерий (Q8YW74, B2UKV6). Общие сведения о белках и организмах приведены в таблице 1.

Таблица 1. Идентификаторы и общие сведения

ИдентификаторМнемоникаИмя белкаДлинаОрганизмДоменСистематическая группа
Q6L0S7DNAK_PICTOChaperone protein DnaK (HSP70) 607Picrophilus torridus (strain ATCC 700027 / DSM 9790 / JCM 10055 / NBRC 100828) Archaea Euryarchaeota
A0RZ01DNAK_CENSYChaperone protein DnaK (HSP70) 607Cenarchaeum symbiosum (strain A) Archaea TACK group
Q8YW74DNAK2_NOSS1Chaperone protein dnaK2 (HSP70-2)621Nostoc sp. (strain PCC 7120 / SAG 25.82 / UTEX 2576) Bacteria Terrabacteria group
B2UKV6DNAK_AKKM8Chaperone protein DnaK (HSP70) 646Akkermansia muciniphila (strain ATCC BAA-835 / Muc) Bacteria PVC group
P11141HSP7F_CAEELHeat shock 70 kDa protein F, mitochondrial666Caenorhabditis elegans Eukaryota Opisthokonta
O24581BIP3_MAIZELuminal-binding protein 3 (BiP3)686Zea mays (Maize) Eukaryota Viridiplantae

Ниже приведено выравнивание, полученное с помощью JalView, с выделенными абсолютно консервативными позициями и дополнительной строкой "Разметка". Её назначение будет описано ниже.

Выравнивание последовательностей белков

Комментарии:
1)Cтоит отметить, что на картинке уже исправленный вручную вариант, потому что Jalview иногда подгоняет 100%-ное совпадение там, где это маловероятно. Часто это происходит в участках, где много гэпов и инделей. Особенно много гэпов можно наблюдать в концах цепей, но нужно понимать, что они не все достоверные. Также в некоторых участках значки G и С совпадали, в таком случае я оставляла только C.
2)На разметке отмечены типы консервативности: консервативные на 80% или более (C), абсолютно функциональные консервативные позиции (F), позиции с гэпами (G). Следует дополнительно пояснить для F - это колонки, где аминокислотные остатки имеют похожие свойства и относятся в одинаковые группы классификации аминокислот. Так, например, можно объединить аспарагиновую и гмутаминовую кислоты; алифатические аминокислоты и тд. В концевом участке я не ставила гэпы, потому что этот участок недостоверный и гэпы не могут свидетельствовать о делециях.
3)Длина выравнивания - 727 c учётом гэпов, которые вставляет программа. На выравнивании можно увидеть, какие колонки я посчитала недостоверными. Также хорошо заметны блоки - обратите внимание на участки дополнительной разметки, где нет G, но подряд идут C или F. Блок - это прямоугольник в выравнивании, для которого предполагается гомология между остатками из всех последовательностей, входящих в блок, для каждой колонки блока. Фрагменты последовательностей, входящих в блок, должны быть похожи, т.е. блок должно содержать много абсолютно консервативных или функционально консервативных позиций [7]

Таблица 2. Параметры консервативности белков

Мнемоника белкаDNAK_PICTODNAK_CENSYDNAK2_NOSS1DNAK_AKKM8HSP7F_CAEELBIP3_MAIZEВыравнивание в целом
Длина без выравнивания613656633642657663-
Длина после выравнивания655697655667685684727
Число инделей9810109515
Число гэпов 42412225282176
Процент гэпов, %6,45,93,43,74,13,110,4
Абсолютно консервативные позиции166166166166166166166
Процент А. К. П., %27,125,326,225,825,325,022,8
Абсолютно функционально консервативные позиции277277277277277277277
Процент А. Ф. К. П., %45,242,243,843,142,241,838,1
Функционально консервативные позиции на 70% и более389377383376376356394
Процент Ф. К. П. На 70% и более, %63,557,560,558,657,253,754,2
Данные получены при помощи команды infoalign пакета EMBOSS и Excel. В работе были использованы очень эволюционно далёкие организмы, представители разных доменов и царств (см. табл. 1). Из выравнивания и обработки результатов, полученных при разных параметрах консервативности мы можем увидеть, что белки имеют достаточно большие почти идентичные блоки. Большое число гэпов оправдывается несовершенством программы, которая в конце (начиная с 625 позиции) последовательности проставляет большое количество ненужных гэпов. Но даже несмотря на это, их процент невелик — менее 7% для каждой последовательности, но если говорить о всём выравнивании, то результат — 10,4%, потому что считалось количество колонок, в которых есть хотя бы 1 гэп, то есть результат завышен. Абсолютно консервативные позиции занимают значительную часть белка, но здесь стоит выход программы воспринимать как верхний порог, а не точное число, тк программа выдала несколько явно лишних колонок, то есть процент в реальности меньше полученного, но всё равно он остаётся внушительным — около 25%. Но если понизить строгость и обратить внимание именно на функциональное сходство аминокислот, то блоки станут ещё более явными и процент таких позиций составит примерно 40%. Из таблицы видно, что при строгости, опущенной до 70%, процент консервативных позиций возрастает примерно до 60%.

Искусственная эволюция белка

Эволюцию белка подчиняется следующим условиям:
Предок - фрагмент последовательности вашего белка длиной 100 а.к.о.
За единицу времени (100 лет) в последовательности происходит семь точечных мутаций
Наблюдается 7 поколений предка: p > p1 > p2 > ... > p7
Ниже приведена последовательность длиною 100 аминокислот, вырезанная у одного из организмов (C. elegans). Скачать её можно командой 'descseq uniprot:P11141[161:260] -des ' ' -auto stdout'.

Геном первого предка, выбранный для эксперимента

>Generation0 P11141 GTTVNNAVVTVPAYFNDSQRQATKDAGQISGLNVLRVINEPTAAALAYGLDKDAGDKIIA VYDLGGGTFDVSILEIQKGVFEVKSTNGDTFLGGEDFDHA

При помощи программы Jalview проводим выравнивание и пытаемся отследить созданную нами эволюционную линию

Результат, выданный программой

Выравнивание, после исправлений вручную

Были сделаны следующие исправления, не соответсвующие эволюции:
Тирозины в поколениях 0 — 4 с 15 места перенесены на 16 с появдением гэпа. Видно, что тирозин созраняется в этой колонке во всех 7 поколениях, поэтому и было сделано исправление
Глобальная перестановка нуклеотидов с 45 по 50. Программа не поняла делецию E в первом же поколении, из-за этого выравнивание вышло не совсем удачным на этом участке
Устранены явные ошибки программы в районе 110 а. м. о. Вставлены недостающие гэпы

Ход эволюции

После исправления ошибок программы, проще заметить мутации в поколениях (описаны первые 10)
1 поколение: среди первых 10 мутаций не встретилось мутаций в 1 поколении
2 поколение: замена аспарагина на цистеин в 6 позиции, вставка триптофана в 34 позиции, делеция валина 39
3 поколение: среди первых 10 мутаций не встретилось
4 поколение: вставка лейцина в 4 позиции
5 поколение: вставка фенилаланина в 15 позиции, вставка пролина в 17 позиции
6 поколение: замена аланина на гистидин в 25 позиции, вставка аспарагина 44
7 поколение: замена глутамина на гистидин в 24 позиции, вставка пролина в 33 позиции

Искусственная эволюция белка с изменением нуклеотидной последовательности

Эволюция белка [8] подчиняется следующим условиям: msbar -count 3 -point 1 -block 1 -codon 1

За единицу времени (100 лет) в последовательности происходит 3 точечные или блоковые мутации
Наблюдается 7 поколений предка: p > p1 > p2 > ... > p7
Типы точечных и блоковых мутаций, допустимых программой: Вставки, делеции, замены, дупликации, перемещения. Прошу обратить внимание, что в данном примере программе разрешено работать не только с точечными мутациями, но и блоковыми.

Последовательность белка первого предка

>c14883143-14883039_1 Caenorhabditis elegans chromosome V MNVIYTAVLVASTLAYTAMAWIGLSIEAANEDMI*

Нуклеотидная последовательность белка

>NC_003283.11 Caenorhabditis elegans chromosome V ATGAATGTCATCTACACTGCCGTCCTTGTTGCTTCAACTCTCGCCTACACTGCAATGGCTTGGATTGGAC TGAGCATTGAAGCCGCCAACGAGGATATGATCTGA

Результат выравнивания, выданный программой


Исправления вручную автоматического выравнивания не было сделано, тк из-за множественных замен в нуклеотидной последовательности последовательность аминокислот изменилась до неузнаваемости, выравнивание нельзя считать удачным из-за огромного количества гэпов, поэтому и исправить что-либо проблематично. Абсолютно консервативной не осталась ни одна колонка. Конечно, из-за большого количества случайных мутаций произошло смещение рамки считывания, поэтому относительную консервативность можно проследить только в начале выравнивания в 1-5 позициях. При этом из-за того, что программе было разрешено изменять целые блоки нуклеотидов, проследить изменения через поколения не так просто как в 1 случае. Остаются видны лишь некоторые мутации, например, замена метионина в 3 поколении на серин, что может стать для белка летальным, так как пропадёт старт-кодон, либо увеличить длину цепи, если впереди есть другой метионин. Также значком * помечены стоп-кодоны, (мутация с появлением стоп-кодона - нонсенс) которые также нарушат начальную структуру белка.

Take home messages

Спорные утверждения из лекции:
Только мутации в половых клетках наследуются: Неверно, потому что существуют ещё, например, соматические мутации – изменения наследственного материала в соматических клетках. Такая мутация передается только потомкам мутантной клетки в процессе митоза. К примеру, такие мутации могут наследоваться при вегетативном размножении растений.
Последовательность белка обычно под стабилизирующим отбором: Не всегда верно, потому что в неблагоприятных условиях белок находится под движущим отбором. Из-за бурного развития фармацевтики и, в частности, антибиотиков такому отбору подвергается большое количество бактерий, прямо сейчас пытающихся выработать приспособленность к новому лекарству. Можно считать, что данные патогены обычно находятся в неблагоприятных условиях, следовательно, под влияние движущего отбора.

Скрипт имитации эволюции для 7 поколений аминокислотной последовательности

Скрипт имитации эволюции для 7 поколений нуклеотидной последовательности

Ссылка на скачивание выравниваний заданий 1, 2, 3





© Миронова Екатерина 2017 год