Рисунок справа содержит фрагмент выравнивания белков семейства HSP70, выбранных мной.
Для рисунка была выбрана раскраска Clustalx с параметром идентичности 100%. В поле "Разметка" содержится информация о сходности аминокислот в колонках. C - абсолютно консервативные, F - функционально консервативные, G - в этом месте расположен геп, что означает делецию, или инсерцию.
Для изучения консервативности нами были взяты те же 6 белков из нескольких крупных таксонов живых организмов. Archaea: DNAK_HALS3, DNAK_HALWD; Bacteria: DNAK_MYCBP, DNAK_MYCLE; Eucaryota: HSP7M_EMENI, GRP78_CANGA. Выравнивание называется top1.fasta.
Рассчёты проводились с помощью infoalign, программы пакета EMBOSS, которая способна подсчитывать количество совпадений входных последовательностей и консенсусной последовательностии по какому-то параметру. Мы использовали такие параметры: наличие гэпов, наличие абсолютно консервативных позиций (АКП), наличие функционально консервативных позиций (ФКП), наличие позиций, консервативных на 70% (70%КП). Стоит отметить, что длина консенсусной последовательности составляет 723 а.о.
Название | Длина | Кол. гэпов | Прц. гэпов | Кол. АКП | Прц. АКП | Кол. ФКП | Прц. ФКП | Кол. 70%КП | Прц. 70%КП | |
DNAK_HALS3_1 | 629 | 94 | 13,00% | 196 | 27,11% | 333 | 46,06% | 279 | 38,59% | |
DNAK_HALWD_1 | 641 | 82 | 11,34% | 196 | 27,11% | 333 | 46,06% | 277 | 38,31% | |
DNAK_MYCBP_1 | 625 | 98 | 13,55% | 196 | 27,11% | 333 | 46,06% | 271 | 37,48% | |
DNAK_MYCLE_1 | 620 | 103 | 14,25% | 196 | 27,11% | 333 | 46,06% | 271 | 37,48% | |
GRP78_CANGA_1 | 667 | 56 | 7,75% | 196 | 27,11% | 333 | 46,06% | 261 | 36,10% | |
HSP7M_EMENI_1 | 666 | 57 | 7,88% | 196 | 27,11% | 333 | 46,06% | 254 | 35,13% |
Как можно видеть на рисунке и в таблице, которая содержит информацию, полученную из infoalign, это семейство белков крайне не консервативно. Лишь 27% участков во всех шести белках имеют одинаковый аминокислотный состав. Но этот параметр позволяет лишь ужасаться, а делать выводы по нему рано. Важнее рассмотреть ФКП, которые отражают наличие позиций, в которых хоть мутация и произошла, но она не сильно повлияла на функции. К примеру, во всех позициях F, обозначенных на рисунке, представлены только гидрофобные аминокислоты, что и позволяет их объединить по функциональности. Таких позиций в выравнивании около 40-50%. Но этот параметр тоже довольно интересен для группировки организмов. Также можно отметить, что по этому параметру все организмы довольно чётко разбиваются на группы, что говорит возможном изменении белка уже у общих предков этих организмов (для каждой из трёх групп один предок). И последний интересный факт можно выявить из данных в таблице (на рисунке тоже): эукариотические белки довольно резко отличаются и от бактериальных, и от архибактериальных. Они имеют большую длину (примерно 7% гэпов у них и 13% гэпов у бактерий с археями), а так же на рисунке заметно большее аминокислотное сходство белков первых четырёх организмов.
В общем такие различия понятны. Белки данного семейства шаперонов выполняют хоть и сходные функции, однако, они должны уметь взаимодействовать со слишком различными белковыми системами, которые могут иметь большое различие у эукариот и прокариот.
Настоящей эволюции это соответствует мало, так что просто представлю таблицу с мутациями.
Номер | Тип мутации | Расположение | Поколение |
1 | Ins A | 4 | p7-p8 |
2 | Del V | 6 | p3-p4 |
3 | Del N | 12 | p1-p2 |
4 | Del V | 17 | p1-p2 |
5 | Ins M | 17 | p6-p7 |
6 | Rep G-A | 20 | p4-p5 |
7 | Ins E | 25 | p6-p7 |
8 | Ins R | 27 | p3-p4 |
9 | Rep I-F | 28 | p5-p6 |
10 | Rep F-T | 28 | p7-p8 |
А теперь перейдём к рассмотрению того, зачем же мы исправляли некоторые места самостоятельно. Алгоритм выравнивания Tcoffee, котрый я исползовал, стреится уменьшить количество гэпов в последовательности, из-за чего периодически случаются ошибки, вес которых меньше, чем вес гэпа. Но мы знаем алгоритмы, которыми сеяли мутации в последовательностях. Вследствие чего можем исправлять мутации до их количества 7мт/поколение.
К примеру, изначально в четвёртой позиции на местах гэпов стояли G, что увеличивало количество мутаций p7-p8 на одну. Вставка гэпа в том месте уменьшила их количество, вследствие чего это поколение снова попадало в 7мт/поколение. Или E, расположенные в 34 позиции в p3 и p4, до редакции находились в позиции 31, что можно обосновать сходством их свойств, вследствие чего алгоритм не придал этому значения(данные выравнивания называются fastagodU.fasta - без редакции, fastagodR.fasta - с редакцией).
В эксперименте, описанном выше, всё было логично и понятно. Но это не совсем относилось к 3 эксперименту. Точечные мутации в ДНК вносят много проблем. Во-первых в последовательностях часто образовывались стоп-кодоны, из за чего позиции выпадали из состава транскриптов. Другая проблема - инделы приводят к свигу рамок считывания, что коренным обазом влияет на последовательность белка. Однако, единственным спасавшим нас обстоятельством являлось то, что кодоны, полученные при замене третьего нуклеотида, транслруют (практически всегда) одинаковые аминокислоты. Вследствие этого после постройки последовательностей белков НЕ ПРОИЗВОДИЛОСЬ ручное выравнивание, так как по оно не несло бы никакой смысловой нагрузки. Необходимо было произвести выравнивание по последовательностям ДНК, что не являлось нашей задачей (данное выравнивание называется fastagod2U.fasta). Эволюция была построена с помощью topscript2.sh и topscript3.sh, выходным файлом из которых является fastagod.fasta. Также они оставляют после себя файлы последовательностей белков и аминокислот каждого из этапов. В первом случае на вход подавать ничего не нужно. Во втором случае принимается файл sequence.fasta с последовательностью ДНК.
Всё будет перечислено в хаотичном беспорядке, но по пунктам. Сначала немного пройдёмся по самой презентации, раз уж такое задание:
Не хотелось загромождать страницу, поэтому, оно здесь.