Практикум 9. Выравнивание последовательностей

Задание 2. Глобальное парное выравнивание (needle)

Глобальное выравнивание для трёх пар гомологичных белков из E. coli K12 и B. subtilis 168.

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Chaperone protein DnaK DNAK_ECOLI DNAK_BACSU 1767.0 55.4% 72.9% 33 6
DNA gyrase subunit A GYRA_ECOLI GYRA_BACSU 2227.0 50.7% 68.6% 72 9
Tyrosine—tRNA ligase TYRA_ECOLI TYRA_BACSU 84.0 14.9% 28.9% 212 24

Для пары TYRA_ECOLI / TYRA_BACSU глобальное выравнивание показало очень низкое сходство (14.9%).

Задание 3. Локальное парное выравнивание (water)

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Chaperone protein DnaK DNAK_ECOLI DNAK_BACSU 1767.0 55.8% 73.3% 30 5 99.7% 99.2%
DNA gyrase subunit A GYRA_ECOLI GYRA_BACSU 2228.0 52.6% 71.3% 38 4 96.1% 98.1%
Tyrosine—tRNA ligase TYRA_ECOLI TYRA_BACSU 95.5 20.2% 39.7% 65 15 56.3% 67.1%

Задание 4. Комментарии к выравниваниям

Пары DNAK (DnaK)

Белки DnaK (шапероны HSP70) гомологичны по всей длине. Глобальное и локальное выравнивания дали практически одинаковые результаты (55.4% vs 55.8% идентичности, покрытие ~99%). Локальное выравнивание не даёт преимущества, так как белки хорошо выравниваются глобально. Сопоставленные буквы совпадают в обоих типах выравнивания.

Пары GYRA (ДНК-гираза A)

Белки гомологичны по всей длине. Глобальное выравнивание показало 50.7% идентичности, локальное — 52.6% при покрытии 96-98%. Локальное выравнивание немного лучше, так как на концах есть некороткие участки, которые не попали в локальное выравнивание.

Пары TYRA (тирозил-тРНК-синтетаза)

Глобальное выравнивание показало очень низкую идентичность (14.9%) и много гэпов (212). Это говорит о том, что белки, вероятно, не гомологичны по всей длине. Однако локальное выравнивание выявило участок длиной ~262 остатка с идентичностью 20.2% и покрытием 56-67%. Это указывает на наличие гомологичного домена в средней части белка. Локальное выравнивание в данном случае гораздо информативнее глобального.

Задание 5. Результат применения программ к неродственным белкам

Выбрана случайная пара с разными мнемониками функций: ENO_ECOLI (энолаза) и DNAK_BACSU (шаперон DnaK).

Глобальное выравнивание (needle)
  • Score: 85.0
  • Identity: 15.2%
  • Similarity: 25.8%
  • Gaps: 313 (46.2%)
  • Indels: ENO_ECOLI = 18, DNAK_BACSU = 18, Total = 36
Локальное выравнивание (water)
  • Score: 90.5
  • Identity: 21.7%
  • Similarity: 36.8%
  • Gaps: 115 (26.3%)
  • Indels: ENO_ECOLI = 11, DNAK_BACSU = 17, Total = 28

Вывод: Оба выравнивания показали очень низкий процент идентичности (15-22%), что типично для неродственных белков. Локальное выравнивание дало немного более высокие показатели, так как нашло короткие консервативные участки (возможно, связанные с АТФ/ГТФ-связыванием, характерным для обоих белков). Однако в целом белки не являются гомологичными.

Задание 6. Множественное выравнивание и импорт в Jalview

(а) Выбранная мнемоника

Мнемоника: DNAK (Chaperone protein DnaK, HSP70)

Полное имя белка из ECOLI: Chaperone protein DnaK (HSP70) (Heat shock 70 kDa protein)

Количество белков в Swiss-Prot: 770 (по запросу sw:dnak_*)

Выбранные 5 белков (помимо ECOLI и BACSU):

  • DNAK_MYCTU (Mycobacterium tuberculosis)
  • DNAK_HELPY (Helicobacter pylori)
  • DNAK_CHLTR (Chlamydia trachomatis)
  • DNAK_NEIMA (Neisseria meningitidis)
  • DNAK_RICPR (Rickettsia prowazekii)
(б) Как делалось выравнивание

Последовательности скачаны из Swiss-Prot с помощью seqret, множественное выравнивание выполнено программой muscle с параметрами по умолчанию.

(в) Проект Jalview

Скачать проект Jalview (dnak_alignment.jvp)

(г) Комментарии к выравниванию

Белки DnaK/HSP70 — высококонсервативная семья, выравнивание не содержит крупных сдвигов, гэпы расположены преимущественно на концах и в вариабельных петлях.

Все выбранные белки — гомологи, выполняют функцию шаперонов HSP70.

Структура выравнивания:

  • Консервативные участки (тёмно-красные): колонки 11-20 (мотив GIDLGTTN), 130-190 (АТФ-связывающий домен), 370-490
  • Вариабельные участки (голубые/синие): колонки 70-120 (петли между доменами), 540-660 (C-концевой субстрат-связывающий домен)