← Назад ко 2 семестру

Практикум 11 — Гомология и выравнивание. Домены JalView GE5

1. Выбранное семейство доменов

Для анализа было выбрано семейство SH3 domain из базы Pfam. Это семейство подходит для задания, так как в seed-выравнивании больше 20 последовательностей, а также для домена известно большое количество 3D-структур.

Параметр Информация Комментарий
AC Pfam PF00018 Идентификатор семейства в Pfam
ID Pfam SH3_1 Короткое имя семейства
Полное название SH3 domain Src homology 3 domain
#SEED 55 Число последовательностей в seed-выравнивании
#All 215000 Число всех белков с этим доменом, на сайте округлено как 215k
#SW 585 Число reviewed-белков из SwissProt / UniProt Reviewed
#architectures 4795 Число различных доменных архитектур
#3D 564 Число структур, связанных с этим доменом
#eukaryota 214924 Основная часть белков с SH3-доменом относится к эукариотам
#bacteria 67 У бактерий SH3-домены встречаются редко
#archaea 0 / не обнаружено На таксономической диаграмме археи для этого семейства не были найдены

2. Описание семейства доменов

SH3 domain — это небольшое семейство белковых доменов, также известное как Src homology 3 domain. В базе Pfam это семейство имеет номер PF00018 и короткое имя SH3_1. SH3-домены часто встречаются в белках, участвующих во внутриклеточной передаче сигнала и организации цитоскелета.

SH3-домен обычно имеет длину около 60 аминокислотных остатков. Основная функция этого домена — участие в белок-белковых взаимодействиях. SH3-домены часто связываются с пролин-богатыми участками других белков, например с мотивами типа PxxP. Благодаря этому они помогают собирать белковые комплексы и регулировать сигнальные пути в клетке.

На странице Pfam / InterPro указано, что SH3-домены часто характерны для белков, участвующих в передаче сигнала, связанной с организацией цитоскелета. Первоначально такие домены были описаны в цитоплазматической тирозинкиназе Src. Структура домена представляет собой частично открытую β-бочкообразную структуру.

SH3-домены могут встречаться в составе разных белков и в разных доменных архитектурах. Например, на странице Pfam для этого семейства показаны архитектуры, где SH3-домен сочетается с другими доменами:

  • SH2 — домен, также участвующий в сигнальных взаимодействиях;
  • PK_Tyr_Ser-Thr — протеинкиназный домен;
  • BAR — домен, связанный с мембранами и цитоскелетом;
  • RhoGAP — домен, связанный с регуляцией малых GTPаз.

Большое число доменных архитектур — 4795 — показывает, что SH3-домен часто комбинируется с другими доменами и может участвовать в разных клеточных процессах.

3. 3D-структура

Для семейства SH3 известно много экспериментальных структур: на странице Pfam указано 564 структуры. В качестве представительной структуры приведена структура 1zuu — кристаллическая структура первого SH3-домена белка Bzz1 дрожжей с разрешением 0.97 Å.

SH3-домен имеет компактную структуру, состоящую преимущественно из β-слоёв. Такая укладка формирует небольшую β-бочкообразную структуру. Поверхность домена участвует в связывании белков-партнёров, поэтому даже небольшой домен может играть важную роль в регуляции клеточных процессов.

4. Таксономическое распространение

По данным раздела Taxonomy, SH3-домены в основном распространены у эукариот. Для эукариот указано 214924 последовательности. Особенно много таких доменов обнаружено у животных, грибов и других эукариотических организмов.

У бактерий найдено только 67 последовательностей, то есть у бактерий этот домен встречается намного реже. У архей представителей на диаграмме найти не удалось, поэтому для них можно указать 0 / не обнаружено.

Описание seed-выравнивания белковых доменов с точки зрения гомологичности

Seed-выравнивание семейства PF00018 содержит 55 последовательностей и 56 колонок (включая gap-символы). Выравнивание построено с использованием HMM-метода и содержит репрезентативные последовательности, отбранные для создания профиля семейства.

2.1 Анализ консервативности колонок

Анализ колонок выравнивания выполнен с использованием двух критериев: (1) абсолютная консервативность — все 55 остатков в позиции идентичны; (2) функциональная консервативность — все остатки принадлежат одной функциональной группе по BLOSUM62 (для каждой пары остатков из множества score > 0).

Результат анализа показал, что в выравнивании имеется ровно одна абсолютно консервативная колонка — позиция 37 (W, триптофан): 100% идентичность, W присутствует во всех 55 последовательностях.

Функционально консервативных позиций (по группам BLOSUM62), находящихся в том же no-gap блоке, не обнаружено. Позиция 37 является единственной консервативной позицией в выравнивании.

2.2 Блоки без гэпов (no-gap blocks)

Поиск участков без гэпов в выравнивании выявил следующие блоки:

Блок (1-based)ДлинаПримечание
2–109 колонокГидрофобное ядро
13–2816 колонокСамый длинный no-gap блок; содержит консервативные позиции
30–323 колонкиКороткий фрагмент
37–437 колонокСодержит позицию 37 (W)
51–566 колонокC-концевой участок

3. Максимальные достоверные блоки (MDB)

3.1 Максимальный достоверный блок для ВСЕ последовательности (MDB-all)

Достоверный блок (МДБ) определяется как выравненный участок, удовлетворяющий следующим условиям:

  1. Блок содержит все или большую часть последовательностей без гэпов;
  2. Первая позиция блока консервативна (абсолютно или функционально);
  3. Последняя позиция блока консервативна (абсолютно или функционально);
  4. Блок не может быть расширен с N- или C-конца без потери достоверности.
Результат: MDB-all = позиция 37 (W), длина 1 колонка. Единственная абсолютно консервативная позиция в выравнивании, образующая максимальный достоверный блок для всех 55 последовательностей.

Консервативная позиция в MDB-all: 37:W (100%, 55/55 последовательностей).

Расширение блока в обе стороны невозможно:

  • Слева от позиции 37 (колонки 33–36): встречаются гэпы у большинства последовательностей, что нарушает условие "все последовательности без гэпов";
  • Справа от позиции 37 (колонки 38–43): хотя это no-gap блок, его границы не консервативны. Позиция 38 содержит 10 разных аминокислот (A, C, F, L, M, S, T, V, W, Y), позиция 43 — более 15 разных остатков. Любое расширение немедленно снижает достоверность блока.
MDB-all: позиция 37 (W) с увеличением на колонки 30–44
Рис. 1. Увеличенный вид колонок 30–44 seed-выравнивания PF00018. Жёлтым выделена колонка 37 (MDB-all) — единственная абсолютно консервативная позиция (W во всех 55 последовательностях). Все соседние позиции содержат либо гэпы, либо вариабельные остатки.

3.2 Максимальный достоверный блок для НЕ ВСЕХ последовательности (MDB-notAll)

Если ослабить требование участия всех 55 последовательностей и позволить гэпы, можно выделить более протяжённый блок, консервативный для подмножества последовательностей.

Например, участок 2–10 (длина 9 колонок) образует no-gap блок. При анализе с использованием функциональных групп (например, "гидрофобные остатки" или "ароматические") этот блок показывает высокую консервативность, отражая основное гидрофобное ядро β-барреля SH3-домена.

Детальный анализ MDB-notAll представлен в проекте JalView (вкладка MDB-notAll), где выделены подмножества последовательностей с наиболее высокой консервативностью.

3.3 Участок, не отражающий ход эволюции (No_homology_region)

В выравнивании выявлены регионы с большим числом гэпов и высокой вариабельностью длин, не поддающиеся надёжному выравниванию по правилам эволюционного консервативного сравнения. К таким участкам относятся колонки 33–36 и 44–50.

Эти участки соответствуют вариабельным петлям SH3-домена (RT-петля, n-Src-петля), которые различаются по длине и последовательности в разных гомологах. Выравнивание в этих регионах определяется техникой HMM, а не реальным эволюционным соответствием остатков.

Регион выделен в проекте JalView (вкладка No_homology_region) для информационных целей.

4. Обсуждение результатов

Наличие единственной абсолютно консервативной позиции (W37) в seed-выравнивании 55 последовательностей отражает высокую дивергенцию SH3-доменов из разных белков и таксонов. Триптофан в этой позиции играет структурно важную роль, формируя гидрофобное ядро β-барреля — укладка, общая для всех SH3-доменов.

Остальные колонки выравнивания содержат разнообразные остатки, что отражает эволюционную адаптацию доменов к различным партнёрским взаимодействиям и регуляторным функциям. Это объясняет, почему SH3-домены встречаются в сотнях различных белков с разными каталитическими и регуляторными функциями.

Полное выравнивание PF00018 (55 последовательностей)
Рис. 2. Полное seed-выравнивание PF00018 (55 последовательностей × 56 колонок). Раскраска Clustal по стандартным группам аминокислот. Жёлтая колонка с оранжевой рамкой — MDB-all (позиция 37, W). Видны все no-gap блоки, гэпы и вариабельные регионы.

5. Таблица выравнивания (Таблица 11-2)

ПараметрЗначение
Семейство (Pfam ID)SH3_1 (PF00018)
Число последовательностей в seed55
Длина выравнивания (колонок)56
MDB-all (позиции)37–37 (длина 1)
100% консервативные колонки в MDB-all37:W
MDB-notAll (позиции)2–10 (длина 9)
Консервативные позиции MDB-notAll2:[AT] (~89% A), функ. группы
Регион без признаков эволюции33–36, 44–50 (гэпы, вариабельность)

6. Файлы проекта

Полный проект JalView с выделением всех блоков (вкладки: Original, MDB-all, MDB-notAll, No_homology_region) доступен по ссылке: Скачать pr11_2.jvp

Проект содержит 4 вида (view):

  • Original — исходное выравнивание без выделений;
  • MDB-all — выделена позиция 37 (MDB-all) жёлтым;
  • MDB-notAll — выделены подмножества для блока 2–10;
  • No_homology_region — отмечены регионы высокой вариабельности.

Заключение

В seed-выравнивании SH3_1 (PF00018) выявлена единственная максимальная достоверная позиция — триптофан в позиции 37, консервативный во всех 55 последовательностях. Это отражает специфику структуры SH3-домена, где гидрофобное ядро β-барреля должно оставаться неизменным, в то время как периферийные участки варьируют для специфического узнавания разных партнёрских мотивов. Данный анализ демонстрирует важность выравнивания для выявления структурно и функционально значимых позиций в семействах белков.

Карта локального сходства двух белков с доменом PF00018

В этом задании была построена карта локального сходства для двух белков, которые содержат один и тот же домен PF00018, но имеют разную доменную архитектуру. Домен PF00018 соответствует домену SH3. Это небольшой белковый домен, который часто участвует в белок-белковых взаимодействиях, особенно в сигнальных белках.

Для сравнения были выбраны белки VAV_HUMAN и NCK1_HUMAN. Оба они содержат SH3-домены, однако устроены по-разному. Поэтому при сравнении не ожидается сходство по всей длине белков, но можно ожидать локальное сходство в участках, соответствующих общим доменам.

Таблица 11-5. Белки с одним доменом PF00018, но разной доменной архитектурой

Таблица 11-5 Информация Комментарии
Доменная архитектура 1 SH3 – SH3 – SH3 – SH2 Такая архитектура характерна для адаптерных белков. Несколько SH3-доменов позволяют белку взаимодействовать с разными партнёрами, а SH2-домен обычно связывается с фосфотирозиновыми участками других белков.
Белок с архитектурой 1 NCK1_HUMAN
UniProt: P16333
Полное название: SH2/SH3 adapter protein NCK1
Организм: Homo sapiens
Длина: 377 аминокислот
Этот белок был выбран как представитель архитектуры, в которой есть три SH3-домена и один SH2-домен. В выравнивании из задания 3 у него также был виден участок, соответствующий домену PF00018.
Доменная архитектура 2 CH – DH/RhoGEF – PH – C1 – SH3 – SH2 – SH3 Эта архитектура сложнее, чем у NCK1. Белок содержит не только SH3 и SH2-домены, но и дополнительные домены, связанные с регуляцией малых GTPаз и внутриклеточной сигнализацией.
Белок с архитектурой 2 VAV_HUMAN
UniProt: P15498
Полное название: Proto-oncogene vav
Организм: Homo sapiens
Длина: 845 аминокислот
Этот белок был выбран как представитель другой доменной архитектуры. Он тоже содержит SH3-домены, но в целом его строение сильно отличается от строения NCK1_HUMAN.

Как была построена карта локального сходства

Для построения карты локального сходства использовался сервис NCBI BLASTp, режим Align two or more sequences.

  1. Сначала были выбраны две белковые последовательности, содержащие домен PF00018: VAV_HUMAN и NCK1_HUMAN.
  2. Для каждого белка была взята каноническая FASTA-последовательность. Я использовала именно вариант FASTA canonical, потому что для задания нужно сравнить две конкретные белковые последовательности, а не набор изоформ.
  3. Последовательность VAV_HUMAN была вставлена в первое поле BLASTp, а последовательность NCK1_HUMAN — во второе поле.
  4. После запуска BLAST была открыта вкладка Dot Plot, где отображается карта локального сходства двух белков.

Карта локального сходства

Ниже приведена полученная карта локального сходства для белков VAV_HUMAN и NCK1_HUMAN.

Dot plot VAV_HUMAN vs NCK1_HUMAN
Рисунок 1. Карта локального сходства белков VAV_HUMAN и NCK1_HUMAN, построенная с помощью BLASTp. По горизонтальной оси отложена последовательность VAV_HUMAN, по вертикальной — последовательность NCK1_HUMAN.

Описание результата

На полученной карте не видно одной длинной диагонали через весь график. Это значит, что белки VAV_HUMAN и NCK1_HUMAN не являются похожими по всей длине последовательности. Такой результат ожидаем, потому что у них разная доменная архитектура и разная длина: VAV_HUMAN намного длиннее и содержит больше типов доменов.

Вместо длинной общей диагонали на карте видны отдельные короткие диагональные участки. Именно они показывают локальное сходство между отдельными фрагментами двух белков. Такие участки можно связать с наличием общего домена PF00018 / SH3.

У белка NCK1_HUMAN есть три SH3-домена, а у белка VAV_HUMAN — два SH3-домена. Поэтому на dot plot появляется не один, а несколько коротких диагональных фрагментов. Это происходит потому, что разные SH3-домены одного белка могут быть похожи на SH3-домены другого белка.

Наиболее заметные участки сходства находятся примерно в тех областях, где у VAV_HUMAN расположены его SH3-домены ближе к C-концу белка. Это хорошо согласуется с доменной архитектурой VAV_HUMAN: его SH3-домены расположены не в начале, а ближе к концу последовательности. У NCK1_HUMAN SH3-домены, наоборот, находятся ближе к N-концевой части белка, а SH2-домен расположен ближе к C-концу.

Интерпретация

Полученный dot plot показывает, что сходство между VAV_HUMAN и NCK1_HUMAN является локальным, а не глобальным. Это значит, что похожи не целые белки, а только отдельные участки их последовательностей.

Такое локальное сходство объясняется тем, что оба белка содержат общий домен SH3. SH3-домены выполняют сходную функцию: они участвуют во взаимодействии белков друг с другом, часто распознавая короткие участки, богатые пролином. Поэтому даже если белки в целом выполняют разные роли и имеют разные наборы доменов, их SH3-участки могут оставаться похожими.

Белок NCK1_HUMAN является адаптерным белком. Его архитектура состоит в основном из доменов SH3 и SH2, поэтому он служит как белок-посредник в сигнальных путях. Белок VAV_HUMAN устроен сложнее: кроме SH3 и SH2, он содержит CH, DH/RhoGEF, PH и C1-домены. Это говорит о том, что VAV_HUMAN участвует не только в связывании других белков, но и в регуляции внутриклеточной сигнализации, связанной с малыми GTPазами.

Вывод

Для задания были выбраны два белка, содержащие один и тот же домен PF00018 / SH3, но имеющие разные доменные архитектуры: NCK1_HUMAN с архитектурой SH3–SH3–SH3–SH2 и VAV_HUMAN с архитектурой CH–DH/RhoGEF–PH–C1–SH3–SH2–SH3.

Карта локального сходства показала несколько коротких диагональных участков, но не показала сплошного сходства по всей длине белков. Это означает, что белки не являются глобально похожими, однако имеют локально сходные фрагменты. Эти фрагменты соответствуют общим SH3-доменам.

Таким образом, результат хорошо подтверждает идею задания: белки с разной доменной архитектурой могут иметь общий домен, и это проявляется на dot plot как локальные области сходства.