Цель настоящего задания составить выборку белков и соответствующих им генов таким образом, чтобы идентичность их с белком CRP_ECOLI убывала указанным образом. Характеристика выбранных последовательностей представлена ниже в таблице.
№ | ID белка | ID гена | DE белка | Identity (%) | E-value |
1 | Q9F435_KLEPN | CAC07215 | CAMP receptor protein | 98 | e-103 |
2 | Q6LVE3_PHOPR | CAG18732 | Putative cyclic AMP receptor protein | 94 | 6e-99 |
3 | Q3QK29_9GAMM | EAN40520 | Cyclic nucleotide-binding:Bacterial regulatory protein, Crp | 75 | 7e-92 |
4 | Q51859_PASHA | AAA85361 | Cyclic AMP receptor protein | 75 | 8e-77 |
5 | Q88A01_PSESM | AAO54138 | Catabolite gene activator Crp | 63 | e-61 |
6 | Q7WZ07_LYSEN | AAP83141 | Clp regulator | 46 | e-48 |
Цель этого задания в построении парных выравниваний белка CRP_ECOLI и его ближайшего гомолога (см. таблицу выше), а также их генов, и сравнении последовательностей генов с позиции того, как замены в них влияют на замены аминокислот в белках. На основании этих выравниваний было обнаружено, что в трех кодонах генов произошли несинонимичные замены нуклеотидов (замену нуклеотида можно назвать элементарным эволюционным событием). Все данные по ним представлены в таблице справа. Цветом на черном фоне описываемые замены указаны и в приведенном ниже выравнивании генов. |
|
||||||||||||||||||||||||||||||||
|
Подробное рассмотрение всех произошедших синонимичных замен показало, что из общего числа (77 замен) целых 72 произошли в третьем нуклеотиде кодона. Это можно объяснить с точки зрения вырожденности генетического кода: очень многие аминокислоты фактически кодируются двумя первыми нуклеотидами кодона, а третий может быть любым. Случаи синонимичных замен, когда изменялся не третий нуклеотид это всего 5 замен, информация о которых приведена слева в таблице. |
На основании анализа данных обо всех заменах в генах рассматриваемых гомологичных белков была построена таблица замен нуклеотидов. В ней оранжевым цветом показаны замены пуринового основания на пуриновое (транзиция), а голубым - пуринового на пиримидиновое (трансверсия). Мы видим, что число таких замен значительно превышает число "перекрестных" замен. Возможно, это связано с тем, что белки репарации легче устанавливают межклассовую замену оснований и устраняют ее с большей вероятностью. Второй правдоподобное объяснение в том, что ДНК представляет собой сложный комплекс нуклеиновой кислоты с белком, и межклассовая замена оснований требует большего изменения этого комплекса. |
В задании предлагалось составить скрипт, который выдавал бы данные об идентичности исследуемых белков и их генов на основании результатов работы программы needle с параметрами по умолчанию. Эта программа предназначена для построения парных выравниваний. Мне показалось целесообразным создать два скрипта. Один из них выдает информацию об идентичности белков, а другой - генов в соответствующем порядке. Удобно было, чтобы выходной файл содержал колонки процентов идентичности вначале для первого объекта с остальными шестью, потом для второго - с оставшимися пятью, и так далее (полный текст написаных скриптов можно посмотреть здесь). В итоге были получены следующие таблицы попарного сходства последовательностей белков и генов.
Если посмотреть на столбцы таблицы идентичности белков, мы увидим,
что цифры в них весьма схожи, а если и отличаются, то лишь на несколько
процентов. С чем это может быть связано? Я могла бы предположить, что
в случае процентов идентичности гомологичных белков в
некоторой степени выполняется правило транзитивности: если белок
(например, CRP_ECOLI, p1) имеет некий процент идентичности с
последовательностью (например, с p7), то и его гомологи будут
иметь близкое значение идентичности с ней. Для близкого гомолога
(например, p2) это более или менее очевидно: его
последовательность очень похожа на последовательность CRP_ECOLI,
но далекие гомологи, такие, как p6, показывают ту же
закономерность распределения идентичностей.
Для построения графика все данные были сведены в единую таблицу идентичности белков была поставлена в соответствие идентичность их генов. Прямая, проходящая через точки (5,25) и (100,100), отображает ту предполагаемую зависимость, которую должна была бы иметь идентичность двух случайных генов от идентичности соответствующим им случайных белков. Назовем ее условно "прямой С". |
Рассмотрим вначале тот график, который был получен для выборки белков-гомологов CRP_ECOLI. На рисунке слева справа он изображен розовой линией. Мы видим, что точки на графике собираются в скопления по несколько; причину этого нужно искать в тех исходных данных, которые были использованы при построении графика, и этот вопрос обуждался выше. Еще один интересный факт заключается в следующем. Для далекого гомолога p7 (идентичность с другими белками выборки ~ 40%) проценты идентичности его гена с генами других белков выборки лежат рядом с прямой С. Для близкого гомолога p2 (его идентичность с CRP_ECOLI ~ 98%) идентичность генов уже очень далеко отклоняется от соответствующего значения на прямой С. В чем причина этого? Одно из моих предположений заключается в том, что, если белки являются близкими гомологами, из этого вовсе не следует то, что мутаций в их генах не происходит, даже наоборот. Если белки долгое время сохраняют свои функции, специализируясь в одном и том же направлении (например, как белки моей выборки, в сторону рецепции специфического соединения - циклического аденозинфосфата), то это означает, что и их гены подвергаются мутациям, изменяются, но при этом не происходит радикального изменения последовательностей белков. Наконец, рассмотрим получившуюся зависимость в сравнении с той, которая была получена для предшественника гемагглютинина вируса гриппа. На представленном графике она отмечена зеленой линией. Мы видим, что до некоторого уровня идентичности белков обе зависимости имеют сходный вид, но примерно после 90% Identity начинается резкое расхождение. Как я думаю, это связано с тем, что уровень мутаций в генах предшественника гемагглютинина вируса гриппа, которые приводят к заменам в белке аминокислот, гораздо выше, чем в моей выборке генов, что связано с различными видами отбора, которым подвержены последовательности этих генов. В случае предшественников гемагглютинина требуется разнообразие, а рецепторы цАМФ довольно консервативны. |