Выравнивания

Парные выравнивания гомологичных белков

Для выравнивания гомологичных белков были выбраны сукцинат-полуальдегид-дегидрогеназа GabD, аллантоиназа и белок инициации репликации хромосомы DnaA бактерий Escherichia coli и Bacillus subtilis. Попарно выравнивались белки с одинаковой мнемоникой функции.

Таблица 1. Характеристики глобальных выравниваний сукцинат-полуальдегид-дегидрогеназы GabD, аллантоиназы и белка инициации репликации хромосомы DnaA Escherichia coli и Bacillus subtilis
Protein Name ID 1 ID 2 Score Identity, % Similarity, % Gaps Indels
Succinate-semialdehyde dehydrogenase [NADP(+)] GabD1 GABD_ECOLI GABD_BACSU 1260.0 48.9 65.6 26/485 2
Allantoinase ALLB_ECOLI ALLB_BACSU 776.0 35.9 54.9 27/463 9
Chromosomal replication initiator protein DnaA DNAA_ECOLI DNAA_BACSU 990.0 42.3 61.9 43/478 9

Таблица 2. Характеристики локальных выравниваний сукцинат-полуальдегид-дегидрогеназы GabD, аллантоиназы и белка инициации репликации хромосомы DnaA Escherichia coli и Bacillus subtilis
Protein Name ID 1 ID 2 Score Identity, % Similarity, % Gaps Indels Coverage 1, % Coverage 2, %
Succinate-semialdehyde dehydrogenase [NADP(+)] GabD1 GABD_ECOLI GABD_BACSU 1264.0 51.5 69.1 3/460 1 94.8 99.6
Allantoinase ALLB_ECOLI ALLB_BACSU 779.0 36.8 56.8 12/438 6 95.8 96.4
Chromosomal replication initiator protein DnaA DNAA_ECOLI DNAA_BACSU 994.0 43.6 63.5 33/463 7 97.2 98.4

1 - соответствующий белок сенной палочки носит название Succinate-semialdehyde dehydrogenase [NADP(+)]

По результатам проведённых выравниваний можно сделать вывод, что, скорее всего, изученные белки сенной и кишечной палочек гомологичны: сукцинат-полуальдегид-дегидрогеназа GabD, аллантоиназа и белок А инициации репликации хромосомы при глобальном выравнивании оказываются идентичны, соответственно, на 48,9%, 35,9%, 42,3%, что значительно выше 25% - идентичности, которая может возникнуть случайно. При локальном выравнивании значение идентичности повышается в среднем на 1,6%. В данном случае локальное выравнивание трудно назвать более информативным относительно глобального: во всех случаях выравниваемые последовательности покрываются более, чем на 94%, то есть в данном случае локальные выравнивания в целом мало отличаются от глобальных. Но следует отметить, что в локальных выравниваниях уменьшилось число гэпов, что может указывать на то, что в структуре белков присутствуют более вариабельные относительно остальной последовательности участки, которые не были затронуты локальным выравниванием. Так, например, при выравнивании по Уотэрману последовательностей сукцинат-полуальдегид-дегидрогеназы GabD отбрасывается 25 первых аминокислот белка кишечной палочки. Также в локальных выравниваниях изменилось сопоставление некоторых позиций, что также объясняется отбрасыванием некоторых участков.

Также стоит отметить, что аллантоиназы двух видов являются наименее близкородственными из изученных пар, т.к. если у двух других белков можно отметить явные довольно продолжительные участки повышенной консервативности (например, в локальном выравнивании GABD это 151-176 и 267-295 аминокислоты белка кишечной палочки, а в локальном выравнивании DNAA - 164-186 и 331-345 аминокислоты белка кишечной палочки), то в выравнивании ALLB такие участки найти сложнее. На это указывает и более низкий процент иденттичности и в локальном, и в глобальном выравниваниях.

Выравнивание неродственных белков

Для выравнивания негомологичных белков были выбраны белок инициации репликации хромосомы DnaA кишечной палочки (ID1: DNAA_ECOLI) и белок биосинтеза жгутика FlhA сенной палочки (ID2: FLHA_BACSU).

Таблица 3. Характеристики выравниваний негомологичных белков
Alignment algorhytm Score Identity, % Similarity, % Gaps Indels Coverage 1, % Coverage 2, %
Needleman–Wunsch 54.0 13.6 25.5 354/749 28 - -
Smith–Waterman 77.5 18.1 38.4 82/276 11 44.8 38.6

Результаты выравниваний подтверждают негомологичность выбранных белков: идентичность как целых последовательностей, так и их наиболее схожих участков ниже 20%, большое количество инделей и низкий счёт выравниваний, всё это говорит о том, что найденные сопоставления случайны. В выравниваниях нельзя даже обнаружить достаточно продолжительных идентичных участков.

Работа со множественным выравниванием

Для множественного выравнивания были выбраны белки с мнемоникой функции DNAA - белок инициации репликации хромосомы DnaA (рекомендованное название белка E. coli: Chromosomal replication initiator protein DnaA).

Всего в Swissprot было найдено 575 таких белков. Из них для выравнивания были выбраны: белок E. coli (ID:DNAA_ECOLI; AC: P03004), белок Bacillus subtilis (ID:DNAA_BACSU; AC:P05648), белок Rhodopseudomonas palustris (ID: DNAA_RHOPA; AC: Q6NDV3), белок Geobacter sp. (ID:DNAA_GEOSM ; AC:C6E7Q5), белок Psychromonas ingrahamii (ID: DNAA_PSYIN; AC:A1T0X4), белок Yersinia pestis (ID: DNAA_YERPE; AC:Q8Z9U7), белок Xanthomonas campestris pv. campestris (ID:DNAA_XANCB ; AC:B0RLI8).

ID этих белков были перенесены в файл ~/term2/pr9/ma.txt, перед каждым ID были добавлены символы "sw:". Затем была запущена программа выравнивания muscle. Файл с полученным выравниванием был импортирован в Jalview

Скачать файл с проектом Jalview

В полученном выравнивании все белки хорошо выравнялись. Выравнивание позволяет выделить наиболее продолжительные высококонсервативные участки на следующих позициях:

1. Позиции 189-195 - идентичны у всех семи последовательностей;

2. 246-253 - отличны 2 позиции в DNAA_RHOPA и 1 в DNAA_PSYIN;

3. 356-359 - отлична только 1 позиция в DNAA_GEOSM;

4. 442-447 - отличны 1 позиция в DNAA_GEOSM и 1 в DNAA_BACSU;

5. 450-458 - отличны 3 позиции в DNAA_GEOSM и 1 в DNAA_XANCB.

Эти позиции, вероятно, наиболее важны для правильного функционирования белка. Они могут быть связаны с распознаванием определенных последовательностей в ДНК и связывания других белков, участвующих в репликации. В выравнивании заметны и другие участки, схожие у этих белков. Их большое количество говорит о том, что все эти семь белков гомологичны.

Первые 140 аминокислот - малоконсервативная область (особенно различаются аминокислоты в позициях 91-140), а значит эта область белков, скорее всего, не несёт функциональной нагрузки (т.е. нужна лишь для правильного позиционирования функциональных групп).

Параметры программ needle и water

При запуске этих программ без опции -auto (при указании выравниваемых последовательностей и файла, в который будет записан результат) будет запрошен ввод следующих параметров:

Gap opening penalty [10.0]: - установление штрафа за открытие индэля (сколько очков выравнивания будет сниматься за первый гэп в инделе) - запрашивает число от 0.000 до 100.000. Значение по умолчанию - 10.0;

Gap extension penalty [0.5]: - установление штрафа за каждый следующий (после первого) гэп индэля. Запрашивает число от 0.000 до 10.000. Значение по умолчанию - 0.5

В типичном случае штраф за открытие инделя должен быть ниже штрафа за его продолжение, ведь эволюционно более вероятна 1 длинная делеция/инсерция, чем множество коротких. Но в некоторых случаях эти значения нужно изменить (например, если мы знаем, что в последовательностях присутствует множество одиночных ошибок (ошибок секвенирования, например), то следует штраф за удлинение инделя сделать выше, чем за его открытие). Значения этих параметров, достаточно сильно (в зависимости от особенностей выравниваемых последовательностей: их длин, степени их идентичности) отличающиеся от значений по умолчанию, приводят к изменению выравнивания.

Рассмотрим влияние изменения этих параметров на примере выравнивания белков с ID DNAK_ECOLI и DNAK_BACSU. При понижении значения штрафа за открытие инделя повышается их количество. Так, при значении "9.0" (как и при значении по умолчанию) соответствующего параметра число инделей равно 5, при значении "8.0" - 7 инделей, при значении "7.0" - 8 инделей. Это объясняется тем, что в связи с уменьшением штрафа за открытие инделя появляется возможность найти более выгодные сопоставления, например, путём переноса позиции, находившейся на границе инделя, внутрь этого инделя, разделяя его на два. При повышении же этого значения число инделей будет уменьшаться (так, при значении "100.0" в выравнивании останется 3 инделя).

По тем же причинам при повышении штрафа за удлинение инделя будет увеличиваться число инделей: при значении соответствующего параметра "10.0" и значении по умолчанию штрафа за открытие инделя их число вырастет до 9, а при снижении штрафа за открытие инделя до 8.0 - до 19.