Для работы с этим практикумом я взял структуру PDB 3BIK — это комплекс белка программируемой клеточной смерти 1 (PD-1), названного молекулой месяца (декабрь 2016) по версии RCSB PDB-101, и белка-лиганда PD-L1. PD-1 располагается на поверхности T-клеток, в то время как PD-L1 находится на поверхности регуляторных клеток, например антиген-презентующих. По своему строению и PD-1, и PD-L1 напоминают бета-сэндвич антител. Изображение комплекса PD-1 с PD-L1 представлено на рис. 1.

Для структуры 3BIK был произведен поиск по базам данных доменов SCOP, ECOD, CATH и Pfam. Полученная информация систематизирована в таблице 1.

Рис. 1 Комплекс PD-1 (синий) с PD-L1 (белый)
Таблица 1 Сравнение разбиения 3BIK на домены в разных базах данных

A1 A2 B
Название Начало Конец Название Начало Конец Название Начало Конец
Pfam V-set 22:A 131:A C2-set_2 135:A 220:A V-set 38:B 145:B
CATH Immunoglobulins 18:A 132:A Immunoglobulins 133:A 229:A Immunoglobulins 33:A 148:A
SCOP V-set 34:B 148:B
ECOD EUF06653 18:A 131:A C2-set_2 130:A 229:A V-set 34:B 147:B

В таблице приведены соответствующие разбиения на домены в четырех базах. В качестве названия брался наименьший значимый домен. Например, при классификации по CATH: (C) Mainly Beta > (A) Sandwich > (T) Immunoglobulin-like > (H) Immunoglobulins > 3bikA01 брался Immunoglobulins, т.к. домен 3bikA01 представляет только один участок только одной структуры. На рис. 2—5 цветом выделены участки белка, отнесенные к отпределенным доменам — A1 синий, A2 красный, B зеленый.

Видно, что для структуры PD-L1 в базе SCOP не нашлось никакого соответствия, притом, что первая половина цепи A очень схожа с цепью B (PD-1), для которой в SCOP домен найден. Данный факт отсутствия аннотации кажется весьма странным. Скорее всего, он является следствием проблем автоматизации присвоения доменной классификации.

Наиболее узко определены домены в Pfam. Как видно из рис. 2, разделение на домены в Pfam не затрагивает линкер между двумя бета-сендвичами цепи А и по одному бета-листу в цепи А и B. Так как Pfam среди представленных является единственной базой, производящей разделение на основании последовательностей, можно предположить, что участки, не распознанные как часть доменов, либо являются сильно вариабельными в принципе (так, что по ним HMM не построилась), либо отличаются в данном белке и не были распознаны.

Выделение доменов в CATH и ECOD в целом почти совпадают. CATH не оставляет ни единого остатка, не отнесенного к какому-либо домену, однако это является следствием самой логики CATH: доменом в этой базе является кусок цепи любого белка, определяемый как домен из структурных соображений, т.е. разбиение любого входящего в CATH белка на домены является полным, и ни один такой домен не несет никакого эволюционного смысла и не связывает данный белок с другими. Такой домен не является единицей классификации, поэтому в таблице приведена классификация на уровень выше (суперсемейство по гомологии), которое, в свою очередь, содержит значительно меньше информации и детализации, чем в остальных базах.

В ECOD основная идея классификации белков — их гомология. В таблице приведены домены самого низкого уровня классификации — F, семейство (определяемое в ECOD как домены с высоким сходством последовательностей). ECOD согласно каким-то своим внутренним критериям нашел различия между первым доменом в цепи A и цепью B, поместив их, в отличие от остальных баз, в разные группы. Из таблицы видно, что аннотация доменов А1 и А2 перекрывается, это также видно на рис.5, где красный домен заходит на синий.

Рис. 2 Разделение на домены в Pfam
Рис. 3 Разделение на домены в CATH
Рис. 4 Разделение на домены в SCOP
Рис. 5 Разделение на домены в ECOD