SCOP и CATH

  1. Классификация доменов записей PDB 1F30 и 1U94 согласно SCOP

    Определим классификацию доменов записи 1F30 согласно SCOP. К сожалению для этой записи нашелся всего один домен - додекамерный гомолог ферритина из E. coli (Dodecameric ferritin homolog from Escherichia coli):
    Возьмем для дальнейшего исследования запись 1U94 (белок RecA из E. coli). Согласно SCOP белок состоит из 2 доменов.
    Первый из них - домен АТФазы белка RecA из E. coli (RecA protein, ATPase-domain from Escherichia coli):
    Второй из них - С-концевой домен белка RecA из E. coli (RecA protein, C-terminal domain from Escherichia coli):
  2. Классификация доменов записей PDB 1F30 и 1U94 согласно CATH

    Определим для тех же записей классификацию доменов согласно CATH.
    Для записи 1F30 CATH определил 12 доменов (расположенных, соответственно, в 12 цепях). Впрочем, они ничем друг от друга не отличаются (12 цепей в белке 1F30 идентичны), поэтому рассмотрими один из них - домен 1f30A00:
    Для записи 1U94 CATH определил 2 домена.
    Первый из них - домен 1u94A01:
    Второй из них - домен 1u94A02:
  3. Различия между CATH и SCOP в описании доменов записей 1F30 и 1U94

    Доменная организация белка записи 1F30 определена в CATH и SCOP одинаково.
    Небольшое отличие в определении доменной организации белка записи 1U94 заключается в том, что SCOP выделил координаты первого домена записи как 6-268, а CATH - 27-269; соответственно в CATH начальная координата второго домена этой записи сдвинулась на один остаток (270-328).
    Доменная организация белка записи 1U94 согласно SCOP представлена ниже:


    Доменная организация этого же белка согласно CATH:

    Красным окрашен первый домен, синим - второй домен.

    Домен записи 1F30 описан в CATH и SCOP одинаково (принадлежит классу альфа-спиральных белков, укладке/топологии ферритинов). Единственная разница в том, что в CATH классификация более подробная (больше уровней). В частности, согласно CATH 1F30 принадлежит архитектуре Up-down Bundle (такого аналога в SCOP нет).
    Домен АТФазы белка 1U94 определен в CATH и SCOP практически одинаково (за исключением того, что в SCOP его укладка называется "нуклеозидтрифосфат-гидролазы, содержащие P-петлю", а в CATH топология называется "укладка Россманна"; впрочем, суперсемейства, следующие далее по классификации, для этого домена по CATH и SCOP вновь совпадают).
    Наконец, уровни C-концевого домена белка 1U94 в CATH и SCOP называются немножко по-разному. Укладка этого домена по SCOP - "домен анти-LPS фактора или белка RecA"; топология по CATH - "домен 2 белка RecA". Суперсемейство по SCOP - "C-концевой домен белка RecA"; суперсемейство по CATH - "домен 2 белка RecA".

    Некоторые домены имеют разную классификацию в CATH и SCOP.
    Например, белок S046, имеющий согласно SCOP ту же укладу, что и C-концевой домен белка 1U94, в CATH просто не представлен.
    Другой пример - домен 1v96A00 из записи 1V96, имеющий согласно CATH ту же топологию, что и домен АТФазы белка 1U94 (укладка Россманна), но имеющий другую укладку согласно SCOP (не нуклеозидтрифосфат-гидролазы, содержащие P-петлю, а PIN-подобные домены (PIN domain-like)).
    Наконец, последний пример - домен 2qipA00 из записи 2QIP, имеющий ту же топологию, что и 1u94A01 (укладка Россманна), представлен в CATH, но отсутствует в SCOP.

    Причинами таких различий в доменной классификации могут быть: разное количество уровней (в СATH уровней 9 в то время, как в SCOP их всего 6), а значит и различная степень подробности; дата последнего релиза (CATH обновился позже - 7 июля 2009 года, в то время как SCOP обновился в июне 2009); разное суммарное число доменов (в CATH их 128688, в то время как в SCOP - 110800). Даже по изучению одних и тех же доменов в SCOP и CATH в заданиях 1 и 2, видно, что одна и та же топология в CATH и укладка в SCOP могут содержать разное количество суперсемейств (например, топология ферритинов в CATH содержит всего 1 суперсемейство, в то время как укладка ферритин-подобных содержит 6 суперсемейств). Такие же различия можно увидеть на всех уровнях классификации доменов в CATH и SCOP.
  4. Выравнивание доменов, имеющих одну укладку, но состоящих в разных суперсемействах

    Построим выравнивание двух доменов с одной укладкой по SCOP, но из разных суперсемейств. Для задания были выбраны цепь А записи 1so0 (мутаротаза галактозы из человека (Galactose mutarotase from Human (Homo sapiens))) и цепь А записи 1jmm (V-участок поверхности атигена I/II (SA I/II, PAC) из Streptococcus mutans). Оба домена имеют укладку суперсэндвич (Supersandwich), но первый из них принадлежит суперсемейству галактозы мутаротаз-подобных доменов (Galactose mutarotase-like), а второй - суперсемейству V-участка поверхности антигена I/II (V-region of surface antigen I/II (SA I/II, PAC)). Воспользуемся программой PDBeFOLD (SSM). На выходе получаем файл с жестким выравниванием последовательностей в формате fasta 1jmm1so0.fasta. Подадим его на вход программе Geometrical core для нахождения геометрического ядра с порогом 2Å. На выходе получаем таблицу с остатками из структур, образующими геометрическое ядро:
    Pos. 1JMM_A 1SO0_A
    142 SER605 THR39
    144 THR607 THR41
    145 ALA608 ALA42
    147 TYR610 GLU44
    166 TYR628 VAL56
    183 TYR630 GLY73
    184 THR631 ALA74
    185 VAL632 VAL75
    258 VAL643 VAL148
    275 TYR660 ARG162
    282 LYS666 THR169
    283 ASN667 PRO170
    284 THR668 VAL171
    285 SER669 ASN172
    286 ILE670 LEU173
    287 PHE671 THR174
    288 ILE672 ASN175
    289 LYS673 HIS176
    290 ASN674 SER177
    291 GLU675 TYR178
    343 LYS726 LEU202
    475 ASN781 GLY303
    477 VAL783 CYS305
    479 VAL785 GLU307
    Совместим в PyMOL командой pair-fit структуры по Cα-атомам, входящим в геометрическое ядро. В результате получаем следующее изображение совмещенных структур:

    Синим на рисунке окрашена цепь А записи 1so0, зеленым - цепь А записи 1jmm. RMSD совмещения по геометрическому ядру составляет 1.711 (24 to 24 atoms). Это не очень хороший результат (учитывая, что совмещались геометрические ядра).
    Из рисунка видно, что структуры выравнились плохо, хотя в них легко угадывается один и тот же тип супервторичной структуры. Гибкое выравнивание на сервисе FATCAT не сильно улучшает картину:

    FATCAT нашел 5 кластеров плюс-блоков, причем лишь два из них имеют rmsd меньше 3, что говорит о плохом выравнивании структур. Гибкое выравнивание было сохранено в файле 1so01jmmflex.txt. Впрочем, в целом фрагменты супервторичной структуры выравнялись лучше, чем в результате жесткого выравнивания.

    Теперь построим выравнивание двух доменов с одной топологией по CATH, но из разных суперсемейств. Выберем для изучения домен, занимающий позиции 326-649 в цепи A записи 1gxm, и домен, занимающий позиции 1-404 в цепи А записи 1h12. Оба домена имеют топологию гликозилтрансфераз (Glycosyltransferase - 1.50.10). Но домен цепи А записи 1h12 относится к суперсемейству 1.50.10.10 и выделен из Pseudoalteromonas haloplanktis, а домен цепи А записи 1gxm относится к суперсемейству 1.50.10.20 и выделен из Cellvibrio japonicus.
    Для этого вновь воспользуемся программой PDBeFOLD (SSM). На выходе получаем файл с жестким выравниванием последовательностей в формате fasta 1h121gxm.fasta. Подадим его на вход программе Geometrical core для нахождения геометрического ядра с порогом 2Å. На выходе получаем таблицу с остатками из структур, образующими геометрическое ядро:
    Pos. 1GXM_A 1H12_A
    95 SER352 GLU94
    150 THR393 GLU146
    158 ALA401 LEU154
    161 TYR404 SER157
    165 GLY408 GLY161
    166 ASN409 ASN162
    171 LYS411 ASN167
    172 TYR412 TYR168
    173 ARG413 TYR169
    174 ASP414 ASN170
    176 VAL416 ALA172
    177 ARG417 ILE173
    195 PRO434 ARG190
    209 HIS446 LEU198
    210 ALA447 THR199
    211 THR448 ASP200
    223 VAL460 PHE208
    224 LEU461 TYR209
    245 THR482 ASN223
    247 PHE484 TRP225
    248 LYS485 ARG226
    249 THR486 GLN227
    250 ALA487 VAL228
    251 VAL488 ALA229
    252 THR489 THR230
    253 LYS490 LYS231
    254 GLY491 SER232
    255 THR492 ARG233
    256 ASP493 THR234
    257 TYR494 LEU235
    258 ILE495 LEU236
    259 LEU496 LYS237
    260 LYS497 ASN238
    261 ALA498 HIS239
    262 GLN499 PHE240
    274 TRP509 PRO252
    275 CYS510 THR253
    276 ALA511 PHE254
    277 GLN512 LEU255
    278 HIS513 SER256
    286 PRO520 PRO262
    287 LYS521 VAL263
    298 LEU528 PRO274
    302 SER532 TYR278
    374 TYR598 SER330
    381 GLY605 GLY333
    Совместим в PyMOL командой pair-fit структуры по Cα-атомам, входящим в геометрическое ядро. В результате получаем следующее изображение совмещенных структур:

    Красным на рисунке окрашен домен цепи А записи 1h12, зеленым - домен цепи А записи 1gxm. RMSD выравнивания Сα-атомов, входящих в геометрическое ядро, равно 1.590 (46 to 46 atoms).
    Из рисунка видно, что домены совместились гораздо лучше, чем в предыдущем случае. Однако, опять же, структуры плохо накладываются друг на друга, хотя сходство их супервторичной структуры не вызывает никакого сомнения.
    Воспользуемся сервисом FATCAT для улучшения выравнивания. Полученное гибкое выравнивание было сохранено в файле 1h121gxmflex.txt. FATCAT нашел 4 кластера плюс-блоков. Изображение гибкого выравнивания представлено ниже:

    Выравнивание улучшилось незначительно. Структуры плохо выравниваются целиком, но элементы их супервторичной структуры устроены очень похоже.

    Таким образом, можно сделать вывод, что домены, имеющие одинаковую укладку (топологию), но входящие в разные суперсемейства, плохо выравниваются друг с другом, хотя элементы их супервторичной структуры (укладка) устроены одинаково. В некоторых случаях укладки похожи в общих чертах, но все же не очень хорошо накладываются друг на друга (как, например, в доменах записей 1so0 и 1jmm), в других же укладки прекрасно совмещаются друг с другом (как, например, в доменах записей 1h12 и 1gxm).
    Можно объяснить полученный результат тем, что разделение доменов на классы, архитектуры и топологии (укладки) основано исключительно на их пространственной структуре (что уже гарантирует сходство типов строения), а разделение на суперсемейства и семейства подразумевает очень высокий процент сходства в струткурах (выходящий за уровень сходства лишь элементов вторичной структуры), а также сходство в функциях и последовательностях доменов. Таким образом, одна и та же топология (укладка) двух разных доменов подразумевает неплохое соответствие элементов супервторичной структуры, но слабое соответствие структур в целом.

Назад