Возврат на главную страницу третьего семестра

Отчет по практическому занятию №10

Элементарные эволюционные события

Задание №1

Цель настоящего задания — составить выборку белков и соответствующих им генов таким образом, чтобы идентичность их с белком CRP_ECOLI убывала указанным образом. Характеристика выбранных последовательностей представлена ниже в таблице.

№ ID белка ID гена DE белка Identity (%) E-value

1 Q9F435_KLEPN CAC07215 CAMP receptor protein 98 e-103

2 Q6LVE3_PHOPR CAG18732 Putative cyclic AMP receptor protein 94 6e-99

3 Q3QK29_9GAMM EAN40520 Cyclic nucleotide-binding:Bacterial regulatory protein, Crp 75 7e-92

4 Q51859_PASHA AAA85361 Cyclic AMP receptor protein 75 8e-77

5 Q88A01_PSESM AAO54138 Catabolite gene activator Crp 63 e-61

6 Q7WZ07_LYSEN AAP83141 Clp regulator 46 e-48

Задание №2

Цель этого задания в построении парных выравниваний белка CRP_ECOLI и его ближайшего гомолога (см. таблицу выше), а также их генов, и сравнении последовательностей генов с позиции того, как замены в них влияют на замены аминокислот в белках. На основании этих выравниваний было обнаружено, что в трех кодонах генов произошли несинонимичные замены нуклеотидов (замену нуклеотида можно назвать элементарным эволюционным событием). Все данные по ним представлены в таблице справа. Цветом на черном фоне описываемые замены указаны и в приведенном ниже выравнивании генов.

№ замены 1 2 3

Положение в белковом выравнивании 53 119 125

Положение в выравнивании генов 157-159 355-357 373-375

Аминокислота в последовательности P1 LYS ALA LEU

Аминокислота в последовательности P2 GLU SER PRO

Соответсвующий триплет в G1 AAA GCA CTG

Соответсвующий триплет в G2 GAG TCG CCG

Число замен нуклеотидов 2 2 1

№ нуклеотидов Кодон в G1 Кодон в G2 Аминокислота Число замен в кодоне

118-120 CTG TTG LEU 1

220-222 CTG TTA LEU 2

226-228 CTG TTG LEU 1

316-318 TTG CTG LEU 1

Подробное рассмотрение всех произошедших синонимичных замен показало, что из общего числа (77 замен) целых 72 произошли в третьем нуклеотиде кодона. Это можно объяснить с точки зрения вырожденности генетического кода: очень многие аминокислоты фактически кодируются двумя первыми нуклеотидами кодона, а третий может быть любым. Случаи синонимичных замен, когда изменялся не третий нуклеотид — это всего 5 замен, информация о которых приведена слева в таблице.

Считаю важным подчеркнуть, что число синонимичных замен в разы превосходит число несинонимичных. Это означает, что белок CRP_ECOLI находится под действием стабилизирующего отбора, т.е. мутанты в основном элиминируются. Это — разумный вывод, так как этот белок специализировался для выполнения функции рецепции специфического соединения - цАМФ.

Отношение числа синонимичных замен к числу несинонимичных — 77/5, т.е. 15,4.

В приведенном выше выравнивании генов синим показаны полностью совпадающие кодоны, красным — кодоны, в которым произошли синонимичные замены в третьем нуклеотиде, серым синонимичные, но не в третьем нуклеотиде (эти случаи описаны в таблице выше).

Таблица нуклеотидных замен

На основании анализа данных обо всех заменах в генах рассматриваемых гомологичных белков была построена таблица замен нуклеотидов. В ней оранжевым цветом показаны замены пуринового основания на пуриновое (транзиция), а голубым - пуринового на пиримидиновое (трансверсия). Мы видим, что число таких замен значительно превышает число "перекрестных" замен. Возможно, это связано с тем, что белки репарации легче устанавливают межклассовую замену оснований и устраняют ее с большей вероятностью. Второй правдоподобное объяснение в том, что ДНК представляет собой сложный комплекс нуклеиновой кислоты с белком, и межклассовая замена оснований требует большего изменения этого комплекса.

Задание №3

В задании предлагалось составить скрипт, который выдавал бы данные об идентичности исследуемых белков и их генов на основании результатов работы программы needle с параметрами по умолчанию. Эта программа предназначена для построения парных выравниваний. Мне показалось целесообразным создать два скрипта. Один из них выдает информацию об идентичности белков, а другой - генов в соответствующем порядке. Удобно было, чтобы выходной файл содержал колонки процентов идентичности вначале для первого объекта с остальными шестью, потом для второго - с оставшимися пятью, и так далее (полный текст написаных скриптов можно посмотреть здесь). В итоге были получены следующие таблицы попарного сходства последовательностей белков и генов.

Если посмотреть на столбцы таблицы идентичности белков, мы увидим, что цифры в них весьма схожи, а если и отличаются, то лишь на несколько процентов. С чем это может быть связано? Я могла бы предположить, что в случае процентов идентичности гомологичных белков в некоторой степени выполняется правило транзитивности: если белок (например, CRP_ECOLI, p1) имеет некий процент идентичности с последовательностью (например, с p7), то и его гомологи будут иметь близкое значение идентичности с ней. Для близкого гомолога (например, p2) это более или менее очевидно: его последовательность очень похожа на последовательность CRP_ECOLI, но далекие гомологи, такие, как p6, показывают ту же закономерность распределения идентичностей.
Для построения графика все данные были сведены в единую таблицу — идентичности белков была поставлена в соответствие идентичность их генов. Прямая, проходящая через точки (5,25) и (100,100), отображает ту предполагаемую зависимость, которую должна была бы иметь идентичность двух случайных генов от идентичности соответствующим им случайных белков. Назовем ее условно "прямой С".

Рассмотрим вначале тот график, который был получен для выборки белков-гомологов CRP_ECOLI. На рисунке слева справа он изображен розовой линией.
Мы видим, что точки на графике собираются в скопления по несколько; причину этого нужно искать в тех исходных данных, которые были использованы при построении графика, и этот вопрос обуждался выше.
Еще один интересный факт заключается в следующем. Для далекого гомолога p7 (идентичность с другими белками выборки ~ 40%) проценты идентичности его гена с генами других белков выборки лежат рядом с прямой С. Для близкого гомолога p2 (его идентичность с CRP_ECOLI ~ 98%) идентичность генов уже очень далеко отклоняется от соответствующего значения на прямой С.
В чем причина этого? Одно из моих предположений заключается в том, что, если белки являются близкими гомологами, из этого вовсе не следует то, что мутаций в их генах не происходит, даже наоборот. Если белки долгое время сохраняют свои функции, специализируясь в одном и том же направлении (например, как белки моей выборки, в сторону рецепции специфического соединения - циклического аденозинфосфата), то это означает, что и их гены подвергаются мутациям, изменяются, но при этом не происходит радикального изменения последовательностей белков.
Наконец, рассмотрим получившуюся зависимость в сравнении с той, которая была получена для предшественника гемагглютинина вируса гриппа. На представленном графике она отмечена зеленой линией. Мы видим, что до некоторого уровня идентичности белков обе зависимости имеют сходный вид, но примерно после 90% Identity начинается резкое расхождение. Как я думаю, это связано с тем, что уровень мутаций в генах предшественника гемагглютинина вируса гриппа, которые приводят к заменам в белке аминокислот, гораздо выше, чем в моей выборке генов, что связано с различными видами отбора, которым подвержены последовательности этих генов. В случае предшественников гемагглютинина требуется разнообразие, а рецепторы цАМФ довольно консервативны.

№	ID белка	ID гена	DE белка	Identity (%)	E-value
1	Q9F435_KLEPN	CAC07215	CAMP receptor protein	98	e-103
2	Q6LVE3_PHOPR	CAG18732	Putative cyclic AMP receptor protein	94	6e-99
3	Q3QK29_9GAMM	EAN40520	Cyclic nucleotide-binding:Bacterial regulatory protein, Crp	75	7e-92
4	Q51859_PASHA	AAA85361	Cyclic AMP receptor protein	75	8e-77
5	Q88A01_PSESM	AAO54138	Catabolite gene activator Crp	63	e-61
6	Q7WZ07_LYSEN	AAP83141	Clp regulator	46	e-48