Для работы с этим практикумом я взял структуру PDB 3BIK — это комплекс белка программируемой клеточной смерти 1 (PD-1), названного молекулой месяца (декабрь 2016) по версии RCSB PDB-101, и белка-лиганда PD-L1. PD-1 располагается на поверхности T-клеток, в то время как PD-L1 находится на поверхности регуляторных клеток, например антиген-презентующих. По своему строению и PD-1, и PD-L1 напоминают бета-сэндвич антител. Изображение комплекса PD-1 с PD-L1 представлено на рис. 1.
Для структуры 3BIK был произведен поиск по базам данных доменов SCOP, ECOD, CATH и Pfam. Полученная информация систематизирована в таблице 1.
| A1 | A2 | B | |||||||
|---|---|---|---|---|---|---|---|---|---|
| Название | Начало | Конец | Название | Начало | Конец | Название | Начало | Конец | |
| Pfam | V-set | 22:A | 131:A | C2-set_2 | 135:A | 220:A | V-set | 38:B | 145:B |
| CATH | Immunoglobulins | 18:A | 132:A | Immunoglobulins | 133:A | 229:A | Immunoglobulins | 33:A | 148:A |
| SCOP | — | — | — | — | — | — | V-set | 34:B | 148:B |
| ECOD | EUF06653 | 18:A | 131:A | C2-set_2 | 130:A | 229:A | V-set | 34:B | 147:B |
В таблице приведены соответствующие разбиения на домены в четырех базах. В качестве названия брался наименьший значимый домен. Например, при классификации по CATH: (C) Mainly Beta > (A) Sandwich > (T) Immunoglobulin-like > (H) Immunoglobulins > 3bikA01 брался Immunoglobulins, т.к. домен 3bikA01 представляет только один участок только одной структуры. На рис. 2—5 цветом выделены участки белка, отнесенные к отпределенным доменам — A1 синий, A2 красный, B зеленый.
Видно, что для структуры PD-L1 в базе SCOP не нашлось никакого соответствия, притом, что первая половина цепи A очень схожа с цепью B (PD-1), для которой в SCOP домен найден. Данный факт отсутствия аннотации кажется весьма странным. Скорее всего, он является следствием проблем автоматизации присвоения доменной классификации.
Наиболее узко определены домены в Pfam. Как видно из рис. 2, разделение на домены в Pfam не затрагивает линкер между двумя бета-сендвичами цепи А и по одному бета-листу в цепи А и B. Так как Pfam среди представленных является единственной базой, производящей разделение на основании последовательностей, можно предположить, что участки, не распознанные как часть доменов, либо являются сильно вариабельными в принципе (так, что по ним HMM не построилась), либо отличаются в данном белке и не были распознаны.
Выделение доменов в CATH и ECOD в целом почти совпадают. CATH не оставляет ни единого остатка, не отнесенного к какому-либо домену, однако это является следствием самой логики CATH: доменом в этой базе является кусок цепи любого белка, определяемый как домен из структурных соображений, т.е. разбиение любого входящего в CATH белка на домены является полным, и ни один такой домен не несет никакого эволюционного смысла и не связывает данный белок с другими. Такой домен не является единицей классификации, поэтому в таблице приведена классификация на уровень выше (суперсемейство по гомологии), которое, в свою очередь, содержит значительно меньше информации и детализации, чем в остальных базах.
В ECOD основная идея классификации белков — их гомология. В таблице приведены домены самого низкого уровня классификации — F, семейство (определяемое в ECOD как домены с высоким сходством последовательностей). ECOD согласно каким-то своим внутренним критериям нашел различия между первым доменом в цепи A и цепью B, поместив их, в отличие от остальных баз, в разные группы. Из таблицы видно, что аннотация доменов А1 и А2 перекрывается, это также видно на рис.5, где красный домен заходит на синий.