Парное и множественное выравнивания

Задание 2

Результаты парного глобального выравнивания
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Galactarate dehydratase (L-threo-forming)* GARD_ECOLI GARD_BACSU 1834.0 67.1% 80.1% 13 3
Molybdenum cofactor biosynthesis protein B MOAB_ECOLI MOAB_BACSU 297.0 36.0% 55.6% 16 5
Protease 4** SPPA_ECOLI SPPA_BACSU 319.0 15.3% 23.4% 353 11
*Probable galactarate dehydratase (L-threo-forming)
**Putative signal peptide peptidase SppA

Задание 3

Результаты парного локального выравнивания
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Galactarate dehydratase (L-threo-forming)* GARD_ECOLI GARD_BACSU 1836.0 67.5% 80.7% 13 3 98.9% 98.8%
Molybdenum cofactor biosynthesis protein B MOAB_ECOLI MOAB_BACSU 307.0 42.1% 62.8% 1 1 84.7% 85.3%
Protease 4** SPPA_ECOLI SPPA_BACSU 340.0 36.6% 54.5% 7 3 33.5% 63.6%
*Probable galactarate dehydratase (L-threo-forming)
**Putative signal peptide peptidase SppA

Задание 4

Исходя из результатов выравниваний, я полагаю, что пары белков с мнемониками GARD и MOAB гомологичны по всей длине, при этом аминокислотные последовательности галактаратдегидрогеназы у E.coli и Bacillus subtilis гораздо более близки, чем последовательности белка биосинтеза молибденового кофактора. Парное локальное выравнивание протеазы 4 обнаружило протяженный (более 60% короткой последовательности) участок, на котором можно установить гомологию, однако глобальное выравнивание показало всего пятнадцатипроцентную идентичность последовательностей. Этот факт объясняется тем, что последовательность данного белка у сенной палочки значительно короче таковой у кишечной палочки (335 и 615 аминокислотных остатков соответственно).

Задание 5

Я выбрала белки FIMH_ECOLI (Type 1 fimbrin D-mannose specific adhesin) и GLTC_BACSU (Transcriptional dual regulator GltC), имеющие длину одинаковую длину (300 аминокислотных остатков). Результаты глобального и локального выравниваний представлены в таблице:
Выравнивание негомологичных белков
Algorithm Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
needle 31.0 16.2% 27.7% 180 23
water 53.5 20.2% 32.8% 94 15 69.7% 63.7%

Как и ожидалось, глобальное выравнивание показало, что не родственные белки имеют менее 20% идентичных аминокислот, при этом гэпов и инделей очень много, а счет выравнивания крайне низкий. Локальное выравнивание имеет более хорошие показатели, что также предсказуемо, учитывая, что этот алгоритм выравнивает лишь самый схожий участок последовательностей. Однако, разница оказалась менее значительной, чем в случае с SPPA, при большем покрытии. Это говорит о том, что эти два случайно выбранных белка не имеют участков гомологии.

Задание 6

Для множественного выравнивания я выбрала белок с мнемоникой SPPA, который для E.coli имеет рекомендованное название "Protease 4". В базе данных SwissProt всего 7 белков с данной мнемоникой, поэтому для выравнивания я использовала их все. Выравнивание было произведено с помощью программы muscle из пакета emboss с настройками по умолчанию, а затем визуализировано в Jalview.

Из множественного выравнивания видно, что все белки гомологичны. Особенно консервативными являются участки выравнивания в позициях 402-407, 438-445, 458-465, 517-520, расположенные ближе к C-концу исследуемого белка, а также отдельные позиции в разных частях выравнивания. Белки из трех бактерий значительно короче остальных (менее 350 и более 600 аминокислотных остатков соответственно). Паттерн их выравнивания на более длинные последовательнсти одинаков: сохраняется C-концевая половина последовательности, а также небольшие фрагменты ближе к началу выравнивания. Стоит отметить, что короткие белки несут обозначение "putative" ("предполагаемый") в рекомендованном названии и принадлежат бактериям из класса Bacilli филума Bacillota (оставшиеся четыре принадлежат бактериям из филумов Pseudomonadota и Cyanobacteriota). Исходя из этого можно предположить, что:

  1. Наиболее важен для функционирования C-концевой участок протеазы E.coli.
  2. В эволюции бактерий из филума Bacillota (или класса Bacilli) в последовательности протеазы сигнального пептида произошли несколько крупных делеций до дивергенции этой таксономической группы на современные виды.

Я решила узнать, какие аминокислотные остатки протеаз E.coli и B.subtilis были аннотированы в UniProt как составляющие активный центр. Для белка кишечной палочки каталитическим является серин 409, а для сенной палочки — серин 147, которые встали на одну позицию (440) в произведенном мной множественном выравнивании. Думаю, этот факт является значимым и дополнительно подтверждает гомологию исследуемого белка между бактериями.