Определение вторичной структуры

Перед нами стоит задача сравнить предсказания вторичной структуры белка двух программ DSSP и Stride с реально известной структурой. Для этого я выбрала структуру β-лактамазы TEM1 (PDB ID = 1XPB), в которой присутствуют как α-спирали, так и β-листы. Для получения предсказания алгоритмом Stride я воспользовалась онлайн-сервисом и получила файл Stride.html. А для предсказания алгоритмом DSSP я воспользовалась версией, установленной на kodomo, введя в командную строку:

mkdssp -i 1xpb.pdb -o dssp.txt

В результате я получила файл dssp.txt. Ниже представлено изображение выбранного белка с раскраской по элементам вторичной структуры.

Для сравнения алгоритмов предсказания мною были выбраны две спирали (длинная - α и короткая - 310) и два β-листа (большой из 5 β-тяжей и маленький из 2 коротких β-тяжей). Они отчетливо видны на структуре, представленной на следующей картинке.

Далее в виде таблицы я оформила сравнение координат выбранных структур по аннотации PDB и по предсказаниям. Жирным шрифтом выделены несовпадения границ.

Таблица 1. Сравнение границ элементов вторичной структуры, полученных программами, с границами из PDB файла
Элемент PDB Stride DSSP
α-спираль 1 Pro 27 - Leu 40 Pro 27 - Leu 40 Pro 27 - Leu 40
310-спираль 2 Thr 109 - His 112 Thr 109 - Lys 111 Thr 109 - His 112
β-лист 1 Ile 55 - Phe 60
Arg 43 - Asp 50
Arg 259 - Thr 266
Arg 244 - Gly 251
Phe 230 - Ala 237
Ile 55 - Phe 60
Arg 43 - Asp 50
Arg 259 - Thr 266
Arg 244 - Gly 251
Phe 230 - Ala 237
Ile 55 - Phe 60
Arg 43 - Asp 50
Arg 259 - Thr 266
Arg 244 - Gly 251
Phe 230 - Ala 237
β-лист 2 Arg 65 - Pro 67
Thr 180 - Met 182
Phe 66 - Pro 67
Thr 180 - Thr 181
Phe 66 - Pro 67
Thr 180 - Thr 181

Из таблицы 1 видно, что протяженные элементы, как α-спираль 1 и β-лист 1 одинаково хорошо предсказываются обеими программами. Однако короткие 310-спирали и β-листы порой имеют смещенные на один аминокислотный остаток границы по сравнению со вторичной структурой, аннотированной в PDB файле. На данной конкретной структуре более точной оказалась программа DSSP. Хочу отметить, что в выдаче программ Stride и DSSP предсказан короткий (2 остатка) β-тяж, который не является таковым в PDB файле. Все остальные элементы обнаружены весьма точно.

Ниже представлено сравнение предсказанной и нативной вторичной структуры по аминокислотным остаткам последовательности. Примечание: в описании PDB α-спирали и 310-спирали отмечаются одной буквой H, а β-тяжи - буквой E, другие элементы не уточняются.

SEQ  1    HPETLVKVKDAEDQLGARVGYIELDLNSGKILESFRPEERFPMMSTFKVL   50          
STR        HHHHHHHHHHHHHH  EEEEEEEETTTT EEEEETTTT EE GGGGGGH               
DSSP       HHHHHHHHHHHHHHTSEEEEEEEETTT  EEEEESTTS EE GGGHHHH                                                              
PDB        HHHHHHHHHHHHHH  EEEEEEEE     EEEEE    EEE HHHHHHH
REM
REM                .         .         .         .         .               
SEQ  51   LCGAVLSRVDAGQEQLGRRIHYSQNDLVEYSPVTEKHLTDGMTVRELCSA  100          
STR       HHHHHHHHHHH   TTTTEE   GGG TTTTTTGGGTTTTTEEHHHHHHH     
DSSP      HHHHHHHHHHTTS  TT EE   GGG  SS TTGGGGTTT EEHHHHHHH
PDB       HHHHHHHHHH             HHH       HHHH      HHHHHHH
REM                                                                        
REM                .         .         .         .         .               
SEQ  101  AITMSDNTAANLLLTTIGGPKELTAFLHNMGDHVTRLDRWEPELNEAIPN  150          
STR       HHHH  HHHHHHHHHHH  HHHHHHHHHHH TTTT    TTTGGG  TTT       
DSSP      HHHS  HHHHHHHHHHHT HHHHHHHHHHTT SS    S TTGGG   TT 
PDB       HHH   HHHHHHHHHHH  HHHHHHHHHH             HHH     
REM                                                                        
REM                .         .         .         .         .               
SEQ  151  DERDTTMPAAMATTLRKLLTGELLTLASRQQLIDWMEADKVAGPLLRSAL  200          
STR       TTTTEE HHHHHHHHHHHHH TTTTHHHHHHHHHHHHHTTTTTTTGGGG        
DSSP        TTEE HHHHHHHHHHHHHSSSS HHHHHHHHHHHHT  S IIIIIHH
PDB           EEEHHHHHHHHHHHHH     HHHHHHHHHHHH        HHHH 
REM                                                                        
REM                .         .         .         .         .               
SEQ  201  PAGWFIADKSGAGERGSRGIIAALGPDGKPSRIVVIYTTGSQATMDERNR  250          
STR       TTTTEEEEEEEETTTTTEEEEEEEETTTT  EEEEEEEE     HHHHHH        
DSSP       TT EEEEEEEE STT EEEEEEEESTT   EEEEEEEES  S HHHHHH
PDB           EEEEEEEE     EEEEEEEE      EEEEEEEE     HHHHHH
REM                                                                        
REM                .                                                       
SEQ  251  QIAEIGASLIKHW                                       263          
STR       HHHHHHHHHHHH                                             
DSSP      HHHHHHHHHHHT 
PDB       HHHHHHHHHHH