На главную страницу четвертого семестра.

Занятие 1. Биоинформатика и эволюция.



Задание №1. Сравнение разных способов оценки эволюционных расстояний между 2-мя генами.



Для достижения поставленной цели, были сделаны следующие операции:


Задание №2. Описание элементарных эволюционных событий для случая 3-х замен в одном кодоне.


Заданны следующие исходный и конечный кодоны:
  1. TGT - цистеиновый кодон Cys.
  2. CGA - аргининовый кодон Arg.

Посмотрев внимательно на данные кодоны,можно заметить, что минимальным путем эволюции исходного кодона в конечный, будет путь, состоящий из двух замен, а не трех, так как второе нуклеотидное основание одинаково в обоих кодонах: G.
Итак, пути эволюции выглядят следующим образом:



На схеме использованы следующие обозначения:
  1. S1 - число потенциальных синонимичных сайтов в кодоне TGT.
  2. N1 - число потенциальных несинонимичных сайтов в кодоне TGT.
  3. S2 - число потенциальных синонимичных сайтов в кодоне CGT.
  4. N2 - число потенциальных несинонимичных сайтов в кодоне CGT.
  5. s - число синонимичных замен.
  6. n - число несинонимичных замен.
  7. светло-зеленая стрелка - разрешенные эволюционные пути.
  8. красная стрелка - не разрешенные эволюционные пути (проходят через стоп-кодон).
  9. нуклеотидное основание, выделенное серым цветом - замена.

Расчет данных схемы, а также скоростей синонимичных и несинонимичных замен (Ks и Ka соответственно), приведен ниже:
  1. число потенциальных синонимичных сайтов для кодона TGT вычислялось так: замена по первому нуклеотиду кодона приводят к несинонимичной замене; замена по второму кодону - также к несинонимичной замене; из трех доступных замен по третьему нуклеотиду, одна замена: T -> A приводит к нонсенс-кодону, следовательно эту замену в расчетах не учитываем (полагая, что эволюция через стоп-кодоны не возможна). Так что для третьего нуклеотида возможны только две замены, из них одна - синонимичная (T -> C: приводит к кодону TGC). Так что S = 0 + 0 +0,5 = 0,5.
  2. число потенциальных несинонимичных сайтов для кодона TGT вычислялось по формуле: N = 3 - S. Так что N = 3 - 0,5 = 2,5.
  3. число потенциальных синонимичных сайтов для промежуточного кодона CGT вычислялось так: замена по первому нуклеотиду кодона приводят к несинонимичной замене; замена по второму кодону - также к несинонимичной замене; любая замена по третьему кодону - к синонимичной замене. Так что для третьего нуклеотида возможны все три замены, и S = 1 + 0 + 0 = 1.
  4. число потенциальных несинонимичных сайтов для промежуточного кодона CGT равно N = 3 - 1 = 2.
  5. число наблюдаемых синонимичных замен за эволюционный путь равно: s = 1, что наблюдается в замене CGT -> CGA.
  6. число наблюдаемых несинонимичных замен за эволюционный путь равно: n = 1, что наблюдается в замене TGT -> CGT.
  7. рассчитаем Ks - число синонимичных замен на 1 синонимичный сайт. Но сперва произведем подготовительные операции. Из схемы видно, что есть два потенциальных пути эволюции от кодона TGT к кодону CGA. Один из них проходит через стоп-кодон, а это противоречит принятым правилам молекулярной эволюции: так что этот вариант не учитывается. Но тогда для минимальной эволюции возможен только один путь: на схеме обозначен зелеными стрелками - следовательно, вероятность данного пути p = 1. Поэтому среднее количество наблюдаемых синонимичных замен sd = s*p = 1, а среднее количество наблюдаемых несинонимичных замен nd = n*p = 1. Тогда представим имеющиеся данные в виде таблицы:

    начальный кодон TGT
    конечный кодон CGA
    S1, число синонимичных сайтов в кодоне TGT 0,5
    N1, число несинонимичных сайтов в кодоне TGT 2,5
    S2, число синонимичных сайтов в кодоне CGT 1
    N2, число несинонимичных сайтов в кодоне CGT 2
    sd, среднее число синонимичных замен 1
    nd, среднее число несинонимичных замен 1

  8. Из этих данных находим значения скоростей синонимичных и не синонимичных замен можно рассчитать двояко:
    Первый вариант:
    Ks = 0/S1 (путь TGT ->CGT) + sd/S2 (путь CGT->CGA) = 1/1 = 1
  9. Ka = nd/N1 (путь TGT ->CGT) + 0/N2 (путь CGT->CGA)= 1/2,5 = 2/5
  10. Тогда отношение Ka/Ks = 2/5:1 = 2/5 < 1. Итак, возможно наблюдается эффект стабилизирующего отбора.
    Второй вариант (несколько усложненный):
  11. Ps = sd/S = 1/1,5 = 2/3
  12. Pa = nd/N= 1/4,5 = 2/9
    Где Ps и Pa - пропорции синонимичных и несинонимичных различий соответственно, а S = S1 + S2*p, N = N1 + N2*p. Я предлагаю суммировать число синонимичных и несинонимичных потенциальных сайтов замен, так как, теоретически, любая замена (син. или несин.) могла произойти на любой из позиций и привести к определенному промежуточному кодону, p - вероятность осуществления данного пути (в моем случае p = 1), поэтому каждое число синонимичных и несинонимичных потенциальных сайтов замен входит со своей вероятностью осуществления. То есть, если необходимо знать среднее число синонимичных и несинонимичных сайтов, то достаточно к числу синонимичных и несинонимичных сайтов в исходном кодоне добавить число синонимичных и несинонимичных сайтов в промежуточных кодонах, нормированное на общее число возможных путей. В принципе, в первом приближении уже эти величины можно считать скоростями синонимичных и несинонимичных замен, и положить, что Ka/Ks = Pa/Ps = 2/9:2/3 = 1/3 < 1, но можно далее использовать формулу однопараметрической оценки скоростей замен Джукса-Кантора: K = -3/4*ln(1-4D/3), и рассчитать эти константы в отдельности (полагая D = Ps в первом случае и D = Pa во втором):
  13. Ks = -3/4*ln(1-4Ps/3) = -3/4*ln(1-4*2/3/3) = 1,65
  14. Ka = -3/4*ln(1-4Pa/3) = -3/4*ln(1-4*2/9/3) = 0,26
  15. Ka/Ks = 0,26/1,65 = 0,16 < 1

Но все равно, при любом способе рассчета отношение скоростей замен получается Ka/Ks < 1, то есть можно предположить преобладание давления стабилизирующего отбора на эволюционный путь этих двух кодонов: TGT -> CGA.

Задание №3. Сравнение давления отбора на разные гены (работа с веб-сервером PAL2NAL)



Выполнение задания придерживается следующей схемы работы:
  1. Выявление круга задач, выполняемых сервером PAL2NAL.
  2. Создание выборки белков ARGB_ECOLI, его одного возможного гомолога, и двух белков из таблицы; также их генов.
  3. Получение выравнивания кодонов с помощью сервера PAL2NAL.
  4. Подсчет отношения Ka/Rs.

Ниже приведен подробный отчет о проделанной работе:
Итак, для пары сравниваемых последовательностей генов белков ARGB_ECOLI и ARGB_BUCAP, скорость синонимичных замен Ks = 10.4883 (вообще эта величина при нескольких итерациях изменялась, но не значительно, так что отношение Ka/Ks флуктировало не сильно), скорость несинонимичных замен Ka = 0.2571, так что отношение скоростей равно: Ka/Ks = 0.0245 << 1.
А для пары генов, предложенных в таблице, L36552 и L36554, скорость синонимичных замен Ks = 0.0269, скорость несинонимичных замен Ka = 0.1733, так что отношение скоростей равно: Ka/Ks = 6.4390 > 1.
Вывод:
Из полученных соотношений Ka/Ks можно сделать следующие выводы: В первом случае (для пары последовательностей генов белков ARGB_ECOLI и ARGB_BUCAP): Ka/Ks << 1, что говорит о преобладании давления стабилизирующего отбора на последовательность ARGB_ECOLI - большинство мутаций (путем замен) происходило в синонимичных позициях кодона. Возможно, такая ситуация связана с одной из ключевых ролей белка в метаболизме клетки (все-таки ARGB опосредует одну из реакций орнитинового цикла: ацилирование глутамата, что фактически означает, будет ли клетка синтезировать аргинин), а как, известно, для реализации функциональной активности белка первую роль играет 3D-структура белка: правильный фолдинг, четкое строение активного центра. То есть, третичная структура неким образом "требует" направить отбор в стабилизирующую сторону, в противном случае - возможна потеря функциональной активности (или приобретение иной). Вообще, метаболизм клетки - очень консервативный процесс, и, я думаю, не будет преувеличением сказать, что в основных своих чертах он одинаков для всех живых организмов: от прокариот до эукариот - отличием может служить тот факт, что у эукариот наблюдается тенденция к "централизации" основных биохимических путей на одном - двух сложных белках (обладающих четвертичной структурой). Для проверки этого утверждения, решено было найти возможных гомологов ARGB_ECOLI в составе эукариот с помощью BlastP (с теми же установками, что и первый раз, но поиск только по эукариотам). В результате был найден белок с ID = 34%, из генома хлоропластов красных водорослей: ARGB_PORPU. Проделав те же самые операции, были получены его нуклеотидная и белковая последовательности. И эти данные вместе с последовательностями гена и белка ARGB_ECOLI подавались на вход программе PAML на сервере PAL2NAL для подсчета оценки Ka/Ks. Так что интересно, отношение Ka/Ks = 0.0499 << 1 - давление стабилизирующего отбора!! Конечно, это мог быть случайный результат, да и Rhodophita не далеко ушли (в эволюционном плане) от прокариот (по сравнению, например, с Vertebrata). Но все же это тоже результат. Также хочется отметить, что ARGB_ECOLI и ARGB_BUCAP - ортологи, выполняют одну функцию, но принадлежат разным организмам, и такое отношение Ka/Ks вполне может служить подтверждением этого факта.
Во втором случае (сравнение белков из генов L36552 и L36554) значение Ka/Ks = 6,4390, что является возможным индикатором преобладания давления движущего отбора. В описании обоих белков сказано, что:
  1. оба белка принадлежат организмам одного рода: брюхоногим моллюскам рода Haliotis (галиотисы, или по-нашему "Морские ушки"):


  2. оба белка - Q25012_9VEST и Q25128_HALRU - принимают участие в одном процессе - оплодотворение, первоначально находятся в акросомальном мешочке у спермия. И, возможно, выполняют также одинаковую функцию: в ходе акросомальной реакции, выделевшиеся белки связаваются с рецепторами яйцеклетки (видимо, ими являются особый Zp3-слой блестящей оболочки, состоящий из гликолипидов, протеогликанов, сиаловых, гиалуроновых кислот). Затем эти белки опосредуют слияние мембран спермия и яйцеклетки в последней стадии оплодотворения.
  3. оба белка - предшественники активных форм, имеют в составе сигнальную и основную последовательности.
  4. оба белка принадлежат семейству белков Egg_lysin по классификации InterPro.
  5. длина белков одинакова (149 аминокислот), да и выравнивание аминокислот показывает очень высокое сходство.
  6. Q25128_HALRU весит 17465 Da, Q25012_9VEST весит 17042 Da.
  7. Анализ выравнивания показал, что всего различий в нуклеотидной последовательности есть по ~51-ому нуклеотиду, из них только две замены в синонимичных позициях кодона; также соответствующая белковая последовательность различна по 37-ми аминокислотам. По характеру эти замены распределились так: 21 замена (аминокислотная, 21/37*100% = 56,7%) приводит к совершенно различным по физико-химическим свойствам аминокислотам: A<->E; S<->M и т.п.; 16 (43,3%) - это замены, приводящие к аналогичным по свойству аминокислотам, но с несколько различными размерами: R<->K; L<->V; S<->T; и т.п..

Этот обзор составлен на основании записей Uniprot. Вообще, на мой взгляд, для этих белков наблюдается очень необычная ситуация: имея довольно очень сходные аминокислотные последовательности (возможно, даже гомологи?), их гены показывают значительное давление движущего отбора!!!! В принципе, это понятно, почему наблюдается такое несоответствие: различия в аминокислотных последовательностях почти на 45% приходятся на родственные по физ/хим. свойствам аминокислоты, причем сохраняются не только относительные размеры аминокислот (замены типа I<->M; Y<->F), но и заряд (замены типа K<->R). Понятное дело, что функционально важные свойства (активность, оптимум рН, температуры и др.) белков вряд ли изменятся. Но может поменяться (очень незначительно) субстратная специфичность: небольшие изменения в химическом окружении связывающего сайта вполне достаточно для узнавания других классов гликопротеогликанов. Вообще, у меня два взгляда на возможные причины наблюдаемого факта. Во-первых, в данном примере мы имеем дело с взаимодействием "лиганд-рецептор", который к тому же осуществляется между двумя клетками разных организмов (спермия и яйцеклетки). Соответственно, состояние системы и её участников уже определяется не каждым в отдельности, а в совокупности: то есть если меняется рецептор, то должен адекватно измениться лиганд и наоборот (но только в том случае, если нет альтернатив). Поэтому, если в определенный момент в рецепторном слое яйцеклетки появляются новые виды рецепторов - протеогликанов (например, различающихся числом остатков углеводов в цепи), то для более эффективного взаимодействия, спермию необходимо иметь соответствующий тип лигандов: например, комплементарных белков семейства Egg_lysin. И тогда достаточно небольших модификаций исходной молекулы, чтобы "настроить" их на узнавание новых рецепторов. Таким образом, можно предполагать коэволюцию для рецепторов яйцеклетки и лигандов спермия. Другой взгляд на данную проблему касается особенностей полового процесса у брюхоногих. Если мне не изменяет память, у них внешнее оплодотворение, происходящее в мантийной полости в результате попадания туда гамет самца и выброса самкой своих. Тогда понятное дело встает проблема защиты организмов от межвидового спаривания, которое может обеспечиваться на разных стадиях: дальнее взаимодействие спермия с яйцеклеткой, первичное (контактное) взаимодействие (как раз комплементарной системой "рецептор - лиганд"), слияние гамет. Оба белка Q25012_9VEST и Q25128_HALRU, возможно, опосредуют слияние спермия с яйцеклеткой. В этом случае большая степень вариабельности структуры родственных по функции белков, в пределах допустимого, может способствовать устойчивости от межвидового оплодотворения: чем больше вариантов "правильных" лигандов к рецепторам, тем меньше риск проникновения "чужого" спермия к яйцеклетке. Но тогда прогрессирующее давление движущего отбора может в дальнейшем настолько изменить последовательности белков, что, учитывая также первое утверждение (о коэволюции рецептора - лиганда), возможно разделение одной популяции в две не спаривающиеся между собой популяции. Видимо, следующие наблюдаемые факты: консервативная последовательность белка, выполняющего очень важную функцию в эволюционном плане: размножение, и положительный (движущий) отбор - вполне могут служить признаками видообразования: если такие "незначительные" мутации ведут к изоляции двух подпопуляции в составе одной большой популяции (см. рисунок) - даже если достаточно изменений в последовательностях белков-андрогамонов, опосредующих слияние мембран гамет - то этого вполне хватит, что бы запустить процесс разделения вида в одной экологической нише.



голубым цветом показана популяция с одним типом белка спермия, желтым - популяция
с сильно мутировавшим белком спермия, красным - перекрывающиеся зоны популяций, которые в
процессе эволюции вымирают из-за неспособности представителей производить потомство:
межпопуляционные спаривания не осуществляются, так как сильно мутировавшие спермиальные
белки не способны оплодотворять яйцеклетки, принадлежащие разным самкам разных популяций.


Вообще получается классическая схема эволюции: исходно описание давалось явлению высокой консервативности белков при действии движущего отбора, которым можно дать одно определение - адаптация моллюсков к внешнему оплодотворению при свободном спаривании в морской среде; глубокая адаптация (сильное обособление аминокислотных последовательностей), может служить причиной изоляции двух популяций и в конечном итоге - появлению двух видов.
И наконец, третья точка зрения на эти два белка. Если эти белки выполняют разные, но довольно близкие функции - они четко не прописаны в SwissProt'e - например, один белок обеспечивает слияние мембран, а другой - контактное взаимодействие гамет, то тогда можно предположить о тесном родстве данных белков: может это паралоги, произошедшие в результате дупликации одного из генов белков и впоследствии эволюционировавшего в последовательность похожего белка, но с иной функцией. Но для проверки данного утверждения, необходимо и достаточно будет то, что белки похожи по первичной, вторичной и третичной структурам и иметь отличные функции. Действительно, по первичной структуре белки очень похожи (см. рис. выше) и позволяют говорить о возможной гомологии. Что касается двух других пунктов, то был проведен поиск программой BlastP возможных гомологов с известной 3D-структурой. На вход подавалась последовательность Q25128_HALRU, поиск производился по базе данных структур pdb. В итоге найден белок: 1GAR, c характеристиками выравнивания: ID = 27%, e-value = 7e-12
Score = 65.1 bits (157),  Expect = 7e-12
 Identities = 36/129 (27%), Positives = 65/129 (50%), Gaps = 3/129 (2%)

Query  23   VSKENAAAMKVAMIKFLDSRTDRFKKRIEKIGYPITPPQYTTLLYYNRERLMDWCHNYVE  82
            VS++  + ++  M+ FLD    +  KR   + + + P     L   NRER+M +C +Y  
Sbjct  6    VSRQEQSYVQRGMVNFLDEEMHKLVKRFRDMRWNLGPGFVFLLKKVNRERMMRYCMDYAR  65

Query  83   VSKKIILLGGNKLNKKNFARMGRIIGWKNQWILKRRQWHMVRVMRRY---KASAIAKKIV  139
             SKKI+ L    +NKK   +MGR +G++N  +++     + R ++ +   K +A  +K  
Sbjct  66   YSKKILQLKHLPVNKKTLTKMGRFVGYRNYGVIRELYADVFRDVQGFRGPKMTAAMRKYS  125

Query  140  AMKVADLPC  148
            +      PC
Sbjct  126  SKDPGTFPC  134

Затем все три белка: Q25012_9VEST, Q25128_HALRU, 1GAR - были выравнены программой ClustalW и выравнивание сохранено в .msf формате:




В этом выравнивании добавлена ещё одна строка со вторичной структурой: "H" - положение альфа-спирали; "signal_peptide" - положение сигнального пептида. Как можно заметить, последовательности обоих белков очень хорошо выравниваниются между собой и структурным файлом, что позволяет перенести элементы вторичной структуры 1gak файла на последовательности исследуемых белков. К тому же большинство замен на одинаковые по физ/хим. свойствам аминокислоты расположены в спиралях, а замены на совершенно разные аминокислоты преимущественно (но не генерально) расположены в петельных участках:




Но схожесть по первичной и вторичной структурам ещё не говорит об одинаковой топологии вторичных элементов и соответственно о трехмерной укладке. Поэтому в качестве проверки схожести трехмерной структуры решено было построить трехмерные структуры программой Swiss-Model: если программа построит 3D-модели белков Q25012_9VEST и Q25128_HALRU с помощью одного и того же pdb-файла, то это и будет свидетельствовать о сходжести 3D-структур. Действительно, программа для обоих последовательностей построила структурные файлы на основании одного и того же pdb: 1GAK.pdb. Для белка Q25128_HALRU найдена структура 1gak.pdb с уверенностью P(n) = 2e-10, а для Q25012_9VEST: P(n) = 2e-07.Поэтому, по принятому критерию, можно говорить о сходстве 3D-структур. Итак, если белки Q25012_9VEST и Q25128_HALRU действительно имеют различные функции, то по сходству первичной, вторичной и третичной структур можно уверенно спекулировать о том, что они - паралоги. Возможно, что один ген дуплицировался, и перед нами результат накопления множества мутаций одной копией гена, приведшей к появлению нового белка с иными свойствами.





©Володя Рудько