SCOP и CATH
Классификация доменов записей PDB 1F30 и 1U94 согласно SCOP
Определим классификацию доменов записи 1F30 согласно SCOP.
К сожалению для этой записи нашелся всего один домен - додекамерный гомолог ферритина из E. coli (Dodecameric ferritin homolog from Escherichia coli):
- расположен во всех двенадцати цепях белка 1F30, занимает всю цепь целиком;
- относится к семейству ферритинов (Ferritin); суперсемейству ферритин-подобных (Ferritin-like); укладке ферритин-подобных (Ferritin-like); классу альфа-спиральных белков (All alpha proteins);
- суперсемейство ферритин-подобных (Ferritin-like) содержит 9 семейств;
- укладку ферритин-подобных (Ferritin-like) содержат 6 суперсемейств.
Возьмем для дальнейшего исследования запись 1U94 (белок RecA из E. coli). Согласно SCOP белок состоит из 2 доменов.
Первый из них - домен АТФазы белка RecA из E. coli (RecA protein, ATPase-domain from Escherichia coli):
- расположен в цепи А белка 1U94, занимает в цепи позиции 6-268;
- относится к семейству RecA-подобных (домен АТФазы) (RecA protein-like (ATPase-domain)); суперсемейству нуклеозидтрифосфат-гидролаз, содержащих P-петлю (P-loop containing nucleoside triphosphate hydrolases); укладке нуклеозидтрифосфат-гидролаз, содержащих P-петлю (P-loop containing nucleoside triphosphate hydrolases); классу альфа/бета белков (Alpha and beta proteins (a/b));
- суперсемейство нуклеозидтрифосфат-гидролаз, содержащих P-петлю (P-loop containing nucleoside triphosphate hydrolases), содержит 24 семейства;
- укладку нуклеозидтрифосфат-гидролаз, содержащих P-петлю, (P-loop containing nucleoside triphosphate hydrolases) содержит 1 суперсемейство.
Второй из них - С-концевой домен белка RecA из E. coli (RecA protein, C-terminal domain from Escherichia coli):
- расположен в цепи А белка 1U94, занимает в цепи позиции 269-328;
- относится к семейству C-концевых доменов белка RecA (RecA protein, C-terminal domain); суперсемейству C-концевых доменов белка RecA (RecA protein, C-terminal domain); укладке доменов анти-липополисахаридного фактора или recA (Anti-LPS factor/recA domain); классу альфа+бета белков (Alpha and beta proteins (a+b));
- суперсемейство C-концевых доменов белка RecA (RecA protein, C-terminal domain) содержит 1 семейство;
- укладку доменов анти-липополисахаридного фактора или recA (Anti-LPS factor/recA domain) содержат 2 суперсемейства.
Классификация доменов записей PDB 1F30 и 1U94 согласно CATH
Определим для тех же записей классификацию доменов согласно CATH.
Для записи 1F30 CATH определил 12 доменов (расположенных, соответственно, в 12 цепях). Впрочем, они ничем друг от друга не отличаются (12 цепей в белке 1F30 идентичны), поэтому рассмотрими один из них - домен 1f30A00:
- расположен в цепи А белка 1F30, занимает в цепи позиции 12-167;
- классификация по CATH: 1.20.1260.10.3.2.1.2.13;
- домен относится к топологии ферритинов (Ferritin) (1.20.1260); архитектуре Up-down bundle (1.20); классу доменов, состоящих, в основном, из альфа-спиралей (Mainly alpha) (1);
- в суперсемействе 1.20.1260.10 содержится 26 семейств;
- топологию ферритинов (Ferritin) (1.20.1260) имеет 1 суперсемейство.
Для записи 1U94 CATH определил 2 домена.
Первый из них - домен 1u94A01:
- расположен в цепи А белка 1U94, занимает в цепи позиции 27-269;
- классификация по CATH: 3.40.50.300.33.1.1.1.2;
- домен относится к суперсемейству нуклеотидтрифосфат-гидролаз, содержащих P-петлю (P-loop containing nucleotide triphosphate hydrolases) (3.40.50.300); топологии укладки Россманна (Rossmann fold) (3.40.50); архитектуре 3-слойного сэндвича (3-Layer(aba) Sandwich) (3.40); классу альфа и бэта (Alpha Beta) (3).
- в суперсемействе нуклеотидтрифосфат-гидролаз, содержащих P-петлю (P-loop containing nucleotide triphosphate hydrolases) (3.40.50.300), содержится 208 семейств;
- топологию укладки Россманна (Rossmann fold) (3.40.50) имеет 120 суперсемейств.
Второй из них - домен 1u94A02:
- расположен в цепи А белка 1U94, занимает в цепи позиции 270-328;
- классификация по CATH: 3.30.250.10.1.1.1.1.1;
- домен относится к суперсемейству домена 2 белка RecA (Rec A Protein, domain 2) (3.30.250.10); топологии домена 2 белка RecA (Rec A Protein, domain 2) (3.30.250); архитектуре 2-слойного сэндвича (2-Layer Sandwich) (3.30); классу альфа и бэта (Alpha Beta) (3);
- в суперсемействе домена 2 белка RecA (Rec A Protein, domain 2) (3.30.250.10) содержатся 2 семейства;
- топологию домена 2 белка RecA (Rec A Protein, domain 2) (3.30.250) имеет 1 суперсемейство.
Различия между CATH и SCOP в описании доменов записей 1F30 и 1U94
Доменная организация белка записи 1F30 определена в CATH и SCOP одинаково.
Небольшое отличие в определении доменной организации белка записи 1U94 заключается в том, что SCOP выделил координаты первого домена записи как 6-268, а CATH - 27-269; соответственно в CATH начальная координата второго домена этой записи сдвинулась на один остаток (270-328).
Доменная организация белка записи 1U94 согласно SCOP представлена ниже:
Доменная организация этого же белка согласно CATH:
Красным окрашен первый домен, синим - второй домен.
Домен записи 1F30 описан в CATH и SCOP одинаково (принадлежит классу альфа-спиральных белков, укладке/топологии ферритинов). Единственная разница в том, что в CATH классификация более подробная (больше уровней). В частности, согласно CATH 1F30 принадлежит архитектуре Up-down Bundle (такого аналога в SCOP нет).
Домен АТФазы белка 1U94 определен в CATH и SCOP практически одинаково (за исключением того, что в SCOP его укладка называется "нуклеозидтрифосфат-гидролазы, содержащие P-петлю", а в CATH топология называется "укладка Россманна"; впрочем, суперсемейства, следующие далее по классификации, для этого домена по CATH и SCOP вновь совпадают).
Наконец, уровни C-концевого домена белка 1U94 в CATH и SCOP называются немножко по-разному. Укладка этого домена по SCOP - "домен анти-LPS фактора или белка RecA"; топология по CATH - "домен 2 белка RecA". Суперсемейство по SCOP - "C-концевой домен белка RecA"; суперсемейство по CATH - "домен 2 белка RecA".
Некоторые домены имеют разную классификацию в CATH и SCOP.
Например, белок S046, имеющий согласно SCOP ту же укладу, что и C-концевой домен белка 1U94, в CATH просто не представлен.
Другой пример - домен 1v96A00 из записи 1V96, имеющий согласно CATH ту же топологию, что и домен АТФазы белка 1U94 (укладка Россманна), но имеющий другую укладку согласно SCOP (не нуклеозидтрифосфат-гидролазы, содержащие P-петлю, а PIN-подобные домены (PIN domain-like)).
Наконец, последний пример - домен 2qipA00 из записи 2QIP, имеющий ту же топологию, что и 1u94A01 (укладка Россманна), представлен в CATH, но отсутствует в SCOP.
Причинами таких различий в доменной классификации могут быть: разное количество уровней (в СATH уровней 9 в то время, как в SCOP их всего 6), а значит и различная степень подробности; дата последнего релиза (CATH обновился позже - 7 июля 2009 года, в то время как SCOP обновился в июне 2009); разное суммарное число доменов (в CATH их 128688, в то время как в SCOP - 110800).
Даже по изучению одних и тех же доменов в SCOP и CATH в заданиях 1 и 2, видно, что одна и та же топология в CATH и укладка в SCOP могут содержать разное количество суперсемейств (например, топология ферритинов в CATH содержит всего 1 суперсемейство, в то время как укладка ферритин-подобных содержит 6 суперсемейств).
Такие же различия можно увидеть на всех уровнях классификации доменов в CATH и SCOP.
Выравнивание доменов, имеющих одну укладку, но состоящих в разных суперсемействах
Построим выравнивание двух доменов с одной укладкой по SCOP, но из разных суперсемейств. Для задания были выбраны цепь А записи 1so0 (мутаротаза галактозы из человека (Galactose mutarotase from Human (Homo sapiens))) и цепь А записи 1jmm (V-участок поверхности атигена I/II (SA I/II, PAC) из Streptococcus mutans). Оба домена имеют укладку суперсэндвич (Supersandwich), но первый из них принадлежит суперсемейству галактозы мутаротаз-подобных доменов (Galactose mutarotase-like), а второй - суперсемейству V-участка поверхности антигена I/II (V-region of surface antigen I/II (SA I/II, PAC)).
Воспользуемся программой PDBeFOLD (SSM). На выходе получаем файл с жестким выравниванием последовательностей в формате fasta 1jmm1so0.fasta.
Подадим его на вход программе Geometrical core для нахождения геометрического ядра с порогом 2Å. На выходе получаем таблицу с остатками из структур, образующими геометрическое ядро:
Pos. |
1JMM_A |
1SO0_A |
142 |
SER605 |
THR39 |
144 |
THR607 |
THR41 |
145 |
ALA608 |
ALA42 |
147 |
TYR610 |
GLU44 |
166 |
TYR628 |
VAL56 |
183 |
TYR630 |
GLY73 |
184 |
THR631 |
ALA74 |
185 |
VAL632 |
VAL75 |
258 |
VAL643 |
VAL148 |
275 |
TYR660 |
ARG162 |
282 |
LYS666 |
THR169 |
283 |
ASN667 |
PRO170 |
284 |
THR668 |
VAL171 |
285 |
SER669 |
ASN172 |
286 |
ILE670 |
LEU173 |
287 |
PHE671 |
THR174 |
288 |
ILE672 |
ASN175 |
289 |
LYS673 |
HIS176 |
290 |
ASN674 |
SER177 |
291 |
GLU675 |
TYR178 |
343 |
LYS726 |
LEU202 |
475 |
ASN781 |
GLY303 |
477 |
VAL783 |
CYS305 |
479 |
VAL785 |
GLU307 |
Совместим в PyMOL командой pair-fit структуры по Cα-атомам, входящим в геометрическое ядро.
В результате получаем следующее изображение совмещенных структур:
Синим на рисунке окрашена цепь А записи 1so0, зеленым - цепь А записи 1jmm. RMSD совмещения по геометрическому ядру составляет 1.711 (24 to 24 atoms). Это не очень хороший результат (учитывая, что совмещались геометрические ядра).
Из рисунка видно, что структуры выравнились плохо, хотя в них легко угадывается один и тот же тип супервторичной структуры. Гибкое выравнивание на сервисе FATCAT не сильно улучшает картину:
FATCAT нашел 5 кластеров плюс-блоков, причем лишь два из них имеют rmsd меньше 3, что говорит о плохом выравнивании структур. Гибкое выравнивание было сохранено в файле 1so01jmmflex.txt.
Впрочем, в целом фрагменты супервторичной структуры выравнялись лучше, чем в результате жесткого выравнивания.
Теперь построим выравнивание двух доменов с одной топологией по CATH, но из разных суперсемейств. Выберем для изучения домен, занимающий позиции 326-649 в цепи A записи 1gxm, и домен, занимающий позиции 1-404 в цепи А записи 1h12. Оба домена имеют топологию гликозилтрансфераз (Glycosyltransferase - 1.50.10). Но домен цепи А записи 1h12 относится к суперсемейству 1.50.10.10 и выделен из Pseudoalteromonas haloplanktis, а домен цепи А записи 1gxm относится к суперсемейству 1.50.10.20 и выделен из Cellvibrio japonicus.
Для этого вновь воспользуемся программой PDBeFOLD (SSM). На выходе получаем файл с жестким выравниванием последовательностей в формате fasta 1h121gxm.fasta. Подадим его на вход программе Geometrical core для нахождения геометрического ядра с порогом 2Å. На выходе получаем таблицу с остатками из структур, образующими геометрическое ядро:
Pos. |
1GXM_A |
1H12_A |
95 |
SER352 |
GLU94 |
150 |
THR393 |
GLU146 |
158 |
ALA401 |
LEU154 |
161 |
TYR404 |
SER157 |
165 |
GLY408 |
GLY161 |
166 |
ASN409 |
ASN162 |
171 |
LYS411 |
ASN167 |
172 |
TYR412 |
TYR168 |
173 |
ARG413 |
TYR169 |
174 |
ASP414 |
ASN170 |
176 |
VAL416 |
ALA172 |
177 |
ARG417 |
ILE173 |
195 |
PRO434 |
ARG190 |
209 |
HIS446 |
LEU198 |
210 |
ALA447 |
THR199 |
211 |
THR448 |
ASP200 |
223 |
VAL460 |
PHE208 |
224 |
LEU461 |
TYR209 |
245 |
THR482 |
ASN223 |
247 |
PHE484 |
TRP225 |
248 |
LYS485 |
ARG226 |
249 |
THR486 |
GLN227 |
250 |
ALA487 |
VAL228 |
251 |
VAL488 |
ALA229 |
252 |
THR489 |
THR230 |
253 |
LYS490 |
LYS231 |
254 |
GLY491 |
SER232 |
255 |
THR492 |
ARG233 |
256 |
ASP493 |
THR234 |
257 |
TYR494 |
LEU235 |
258 |
ILE495 |
LEU236 |
259 |
LEU496 |
LYS237 |
260 |
LYS497 |
ASN238 |
261 |
ALA498 |
HIS239 |
262 |
GLN499 |
PHE240 |
274 |
TRP509 |
PRO252 |
275 |
CYS510 |
THR253 |
276 |
ALA511 |
PHE254 |
277 |
GLN512 |
LEU255 |
278 |
HIS513 |
SER256 |
286 |
PRO520 |
PRO262 |
287 |
LYS521 |
VAL263 |
298 |
LEU528 |
PRO274 |
302 |
SER532 |
TYR278 |
374 |
TYR598 |
SER330 |
381 |
GLY605 |
GLY333 |
Совместим в PyMOL командой pair-fit структуры по Cα-атомам, входящим в геометрическое ядро.
В результате получаем следующее изображение совмещенных структур:
Красным на рисунке окрашен домен цепи А записи 1h12, зеленым - домен цепи А записи 1gxm. RMSD выравнивания Сα-атомов, входящих в геометрическое ядро, равно 1.590 (46 to 46 atoms).
Из рисунка видно, что домены совместились гораздо лучше, чем в предыдущем случае. Однако, опять же, структуры плохо накладываются друг на друга, хотя сходство их супервторичной структуры не вызывает никакого сомнения.
Воспользуемся сервисом FATCAT для улучшения выравнивания. Полученное гибкое выравнивание было сохранено в файле 1h121gxmflex.txt. FATCAT нашел 4 кластера плюс-блоков. Изображение гибкого выравнивания представлено ниже:
Выравнивание улучшилось незначительно. Структуры плохо выравниваются целиком, но элементы их супервторичной структуры устроены очень похоже.
Таким образом, можно сделать вывод, что домены, имеющие одинаковую укладку (топологию), но входящие в разные суперсемейства, плохо выравниваются друг с другом, хотя элементы их супервторичной структуры (укладка) устроены одинаково. В некоторых случаях укладки похожи в общих чертах, но все же не очень хорошо накладываются друг на друга (как, например, в доменах записей 1so0 и 1jmm), в других же укладки прекрасно совмещаются друг с другом (как, например, в доменах записей 1h12 и 1gxm).
Можно объяснить полученный результат тем, что разделение доменов на классы, архитектуры и топологии (укладки) основано исключительно на их пространственной структуре (что уже гарантирует сходство типов строения), а разделение на суперсемейства и семейства подразумевает очень высокий процент сходства в струткурах (выходящий за уровень сходства лишь элементов вторичной структуры), а также сходство в функциях и последовательностях доменов. Таким образом, одна и та же топология (укладка) двух разных доменов подразумевает неплохое соответствие элементов супервторичной структуры, но слабое соответствие структур в целом.
Назад