ПЕРСОНАЛЬНЫЙ УЧЕБНЫЙ САЙТ ШАФИКОВА РАДИКА, ФББ, 4 КУРС
ГЛАВНАЯ СЕМЕСТРЫ ПРОЕКТЫ О СЕБЕ БАЗЫ ДАННЫХ FBB MSU

Сравнение доменов SCOP/SCOPe, ECOD, CATH и Pfam

Со мной можно связаться: iltarn@mail.ru

Для проведения операций был выбран интегрин альфа-IIb, для которого известна структура, содержащая только первые 452 остатка(2vdp, внеклеточная часть - цепь А). Это позволит выделить особенности различных классификаций.

Рисунок 1. Структура белка
Показаны вид сбоку и сверху.

Теперь рассмотрим границы доменов в разных базах данных.
SCOP:
7-bladed beta-propeller (32-483), Integrin fragments (не является отдельным классом).
Pfam:
FG-GAP repeat (320-362), FG-GAP repeat (387-423), Integrin_alpha2 domain (481-921), Integrin_alpha cytoplasmic domain (1020-1034).
Здесь явно не хватает еще пяти FG-GAP repeat участков.
CATH:
7-Propellor (Integrin alpha N-terminal domain) (1-452).
ECOD (разные способы классификации):
F:FG-GAP repeat (1-452); T: 7-bladed; H: beta-propeller; X: beta-propeller-like; A: beta duplicates or obligate multimers.

Для объяснения возникших различий обратимся к описаниям приведенных выше систем классификации: в них и кроются различия в выдаче.
SCOP(Structural Classification of Proteins) - база данных для эволюционной классификации, в которой главный упор делается на размещение структур в эволюционной иерархии, основываясь на их консервативных структурных особенностях. Фундаментальная единица классификации - домен, который определяется как эволюционная единица, встречающаяся в природе как в изоляции, так и в составе многодоменных белков. Плюс БД в том, что пополняется она вручную специалистами, однако в этом же и минус: очень долго (есть модификация SCOPe).
Pfam (the protein families database) - курируемая БД семейств белков, которые определяются с помощью выравниваний(наиболее ответственный шаг) и HMMs. Курируемые, к слову, не все записи, а только те, что отмечены Pfam-A. Pfam-B созданы автоматически.
ECOD - цели перекликаются со SCOP, однако ECOD придает особое значение далеким эволюционным связям.
CATH (comprehensive structural and functional annotations for genome sequences) использует структуру белка как чувствительный маркер дальних эволюционных связей, а также для того, чтобы установить связь между последовательностью и функцией. Единицей классификации является домен; если существует достаточно доказательств того, что несколько доменов имеют общего предка, то домены объединяются в гомологичные суперсемейства.

Из всех приведенных выше классификаций сильнее всего отличается Pfam, так как он ищет не только домены, но и мотивы, а также иногда (как в нашем случае) показывает не домен целиком, а набор мотивов на его месте (здесь - и то не всех). Остальные БД похожи даже по описанию. Поэтому в определении границ доменов существует такая разница между Pfam и SCOP/CATH/ECOD.
©Shafikov Radik, 2015