9 практикум

Рогачевская Е.Н.
Факультет биоинженерии и биоинформатики,
Московский государственный университет имени М. В. Ломоносова

Выравнивание пар белков

Needle

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Chaperone protein DnaK DNAK_ECOLI DNAK_BACSU 1767.0 55.4 72.9 33 5
Cold shock protein CspA CSPB_ECOLI CSPB_BACSU 194.5 54.8 67.1 8 4
Peptidoglycan glycosyltransferase MrdB RODA_ECOLI RODA_BACSU 376.0 26.7 45.3 85 17

Water

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Chaperone protein DnaK DNAK_ECOLI DNAK_BACSU 1767.0 55.8 73.3 30 4 99.7 99.2
Cold shock protein CspA CSPB_ECOLI CSPB_BACSU 202.0 61.9 76.2 1 1 88.7 92.5
Peptidoglycan glycosyltransferase MrdB RODA_ECOLI RODA_BACSU 388.5 29.0 49.2 52 15 94.6 96.2

Комментарии к выравниваниям

С помощью программ water и needle были проведены выравнивания трех пар белков, обладающих идентификаторами с одинаковыми мнемоническими функциями: DNAK, CSPB, RODA из Escherichia coli (штамм K12) и Bacillus subtilis (штамм 168).

1) DnaK (шаперон). Для этой пары глобальное и локальное выравнивания дают близкие результаты: идентичность 55,4% (needle) против 55,8% (water), гэпы 33 против 30, локальное выравнивание покрывает очень высокий процент длины последовательности (99.7% и 99.2%). Это означает, что белки гомологичны по всей длине.

2) CspB (белок холодового шока). Глобальное выравнивание показывает 54,8% идентичности и 8 гэпов, а локальное выравнивание даёт 61,9% идентичности и всего 1 гэп, а также покрывает 88.7% и 92.5% от длин последовательностей. Локальное выравнивание в данном случае немного лучше демонстрирует консервативный участок, так как не рассматривает концевые участки с гэпами, поэтому его можно считать чуть более информативным, чем глобальное, но в то же время покрытия являются довольно большими, поэтому можно сказать, что белки гомологичны по всей длине, с расхождениями только в небольших концевых участках.

3) RodA (пептидогликан-гликозилтрансфераза). Глобальное выравнивание даёт 26,7% идентичности и 85 гэпов, а локальное выравнивание — 29% идентичности и 52 гэпа. В данном случае локальное и глобальное выравнивания показали схожие результаты, покрытия в локальном выравнивании составили 94.6% и 96.2%, поэтому можно сказать, что практически весь белок попал выравнивание и локальное выравнивание дает незначительно больший процент сходства.

Таким образом, во всех трех случаях можно сказать, что белки гомологичны почти по всей длине, так как локальное и глобальное выравнивание для каждой пары дают схожие результаты. Но для пар CspB и RodA локальное выравнивание может быть чуть более информативным, так как оно не включает в себя небольшие дивергировавшие концевые участки.

Выравнивание неродственных белков

Needle2

ID 1 ID 2 Score % Identity % Similarity Gaps Indels
ACCC_ECOLI GGT_BACSU 29.5 11.1 18.7 458 33

Water2

ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
ACCC_ECOLI GGT_BACSU 54.5 19.9 34.8 67 9 42.5 24.5

Для неродственных белков ACCC_ECOLI и GGT_BACSU глобальное выравнивание (needle) дало Score 29.5, идентичность 11.1%, сходство 18.7%, 458 гэпов и 33 инделя. Локальное выравнивание (water) показало Score 54.5, идентичность 19.9%, сходство 34.8%, 67 гэпов и 9 инделей, покрытие для ACCC_ECOLI составило 42.5%, для GGT_BACSU — 24.5%. Низкая идентичность (<20%) и огромное количество гэпов при глобальном выравнивании (458) указывают на отсутствие эволюционного родства. Для неродственных белков глобальное выравнивание бессмысленно из-за избыточных гэпов, а локальное показывает, что даже лучший участок имеет низкое сходство.

Множественное выравнивание CSPB

Для выполнения данного задания была выбрана мнемоника CSPB (Cold shock protein CspB). Результаты поиска по команде id:CSPB* AND reviewed:true в Swiss-Prot показало 10 результатов. Из них были выбраны 5 белков: CSPB_SPOGL (Sporosarcina globispora (Bacillus globisporus)), CSPB_GEOSE (Geobacillus stearothermophilus (Bacillus stearothermophilus)), CSPB_BACCL (Bacillus caldolyticus), CSPB_YERPE (Yersinia pestis), CSPB_LISMO (Listeria monocytogenes serovar 1/2a (strain ATCC BAA-679 / EGD-e)).

Для того, чтобы получить необходимые выравнивания, были проделаны следующие шаги:

1. Получен файл cspb.txt со строками
sw:cspb_bacsu
sw:cspb_ecoli
sw:cspb_spogl
sw:cspb_geose
sw:cspb_baccl
sw:cspb_yerpe
sw:cspb_lismo

2. Затем этот файл был создан в fasta-формате: seqret @cspb.txt cspb.fasta

3. Полученный файл был импортирован в Jalview, из Jalview запущено выравнивание muscle, применена раскраска колонок по проценту идентичности.

Ссылка на проект

Комментарии к выравниванию

Все семь последовательностей выровнялись качественно. Гэпы сгруппированы преимущественно на концах, а центральная часть не содержит сдвигов. Все белки гомологичны и принадлежат к семейству белков холодового шока. Разная длина белков (от 57 до 71 аминокислоты), скорее всего, обусловлена вставками и делециями на вариабельных концах, не затрагивающими функциональный домен.

Консервативные участки приходятся на столбцы 9-13, 29-45 и 47-62. Вариабельные участки — столбцы 1–9 и столбцы 63–71 ), где наблюдаются вставки, замены и гэпы у коротких последовательностей (CSPB_SPOGL). Можно сделать вывод, что выравнивание качественное и пригодно для анализа.