Код исследуемого фермента взят из таблицы.
Задача: с помощью SRS по коду ЕС 6.1.1.11 найти в UniProt все ферменты из 3-х хорошо изученных модельных организмов - кишечной палочки Escherichia coli K-12, археи Methanococcus jannaschii и человека.
Т.к. сначала создать "целостный" запрос, на который сразу бы выдавались только интересующие находки не получалось, был выбран такой порядок действий:
Однако рациональнее все-таки сразу использовать правильный запрос: ([uniprot-ECNumber:6.1.1.11] & (([uniprot-ID:*_ECOLI] | [uniprot-ID:*_HUMAN]) | [uniprot-ID:*_METJA])) =
6.1.1.11 & (*_ECOLI | *_HUMAN | *_METJA).
Теперь предстоит сравнить доменную структуру найденных белков (! - сравнивать только домены Pfam); для этого используется вариант просмотра результата "View results using: SW_InterProMatches", который позволяет быстро посмотреть на все мотивы в последовательностях. По полученным данным заполняется таблица такого вида:
Сравнение доменной структуры ферментов из далеких организмов: Escherichia coli K-12, археи Methanococcus jannaschii и человека.
UniProt ID |
AC |
Имя гена |
Первый домен |
Второй домен |
|||
Идентификатор Pfam |
Положение в последовательности
|
Идентификатор Pfam |
Положение в последовательности
|
||||
1 | SYSC_HUMAN | P49591, Q9NSE3 | SARS (син. SERS) | PF00587 | 202-385 | PF02403 | 1-112 |
2 | SYSM_HUMAN | Q9NP81, Q9BVP3 | SARS2 (син. SARSM) | PF00587 | 238-413 | PF02403 | 58-174 |
3 | SYS_ECOLI | P0A8L1, P09156 | SERS | PF00587 | 172-350 | PF02403 | 1-107 |
4 | SYS_METJA | Q58477 | SERS | PF00587 | 226-412 | - | - |
5 | Q8N208_HUMAN | Q8N208 | не указано | PF00587 | 108-152 | - | - |
6 | A2UNU9_ECOLI | A2UNU9 | не указано | информация о доменной структуре отсутствует |
Комментарий к увиденному: для белка A2UNU9_ECOLI доменная структура не приведена, смотрим соответствующий документ UniProt (почему нет доменной структуры?):
Затем нужно оценить сходство последовательностей аминокислот в гомологичных доменах. Это можно сделать двумя способами:
Я выбрала 1ый метод.
Итак, используемые команды (на примере SYSC_HUMAN):
seqret -help -verbose- чтобы узнать о параметрах программы;
seqret sw:P49591 -sbegin1 202 -send1 385 stdout >> SYSC_HUMAN.fasta- для получения нужного для последующего выравнивания участка последовательности SYSC_HUMAN;
needle SYSC_HUMAN.fasta SYSM_HUMAN.fasta -gapopen 10 -gapextend 0.5 stdout >> SYSC_HUMAN-SYSM_HUMAN.txt- для получения попарного выравнивания последовательностей аминокислот в гомологичных доменах;
cat SYSC_HUMAN-SYSM_HUMAN.txt >> PF00587_aln.txt- для получения всех попарных выравниваний в одном файле;
chmod +x pair_aln.chmod ./pair_aln.chmod- чтобы сделать скрипт исполняемым.
На основании этого составлен скрипт для получения всех попарных выравниваний в одном файле.
######################################## # Program: needle # Rundate: Sun Mar 25 2007 14:01:41 # Commandline: needle # [-asequence] SYSC_HUMAN_1.fasta # [-bsequence] SYSM_HUMAN_1.fasta # -gapopen 10 # -gapextend 0.5 # [-outfile] stdout # Align_format: srspair # Report_file: stdout ######################################## #======================================= # # Aligned_sequences: 2 # 1: SYSC_HUMAN # 2: SYSM_HUMAN # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 186 # Identity: 50/186 (26.9%) # Similarity: 90/186 (48.4%) # Gaps: 12/186 ( 6.5%) # Score: 230.5 # # #======================================= SYSC_HUMAN 1 FLEQALIQYALRTLGSRGYIPIYTPFFMRKEVMQEVAQLSQFD-EELYKV 49 |:..|:.:....|..||:.|:..|..:|..|.:........: .::|.: SYSM_HUMAN 1 -LQHGLVNFTFNKLLRRGFTPMTVPDLLRGAVFEGCGMTPNANPSQIYNI 49 SYSC_HUMAN 50 IGKGSEKSDDNSYDEKYLIATSEQPIAALHRDEWLRPEDLPIKYAGLSTC 99 |...:.:..|..|:|..:|....|..:...|||::....||| SYSM_HUMAN 50 --------DPARFKDLNLAGTAEVGLAGYFMDHTVAFRDLPVRMVCSSTC 91 SYSC_HUMAN 100 FRQEVGSHGRDTRGIFRVHQFEKIEQFVYSSPHDNKSWEMFEEMITTAEE 149 :|.|..: |::.||::|||.|.|:|.|..:.|...:|.::.||.::...| SYSM_HUMAN 92 YRAETNT-GQEPRGLYRVHHFTKVEMFGVTGPGLEQSSQLLEEFLSLQME 140 SYSC_HUMAN 150 FYQSLGIPYHIVNIVSGSLNHAASKKLDLEAWFPG- 184 ....||:.:.::::.:..|...|.:|.|:|||.|| SYSM_HUMAN 141 ILTELGLHFRVLDMPTQELGLPAYRKFDIEAWMPGR 176 #--------------------------------------- #--------------------------------------- #======================================= # # Aligned_sequences: 2 # 1: SYSC_HUMAN # 2: SYS_ECOLI # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 186 # Identity: 67/186 (36.0%) # Similarity: 98/186 (52.7%) # Gaps: 9/186 ( 4.8%) # Score: 294.5 # # #======================================= SYSC_HUMAN 1 FLEQALIQYALRT-LGSRGYIPIYTPFFMRKEVMQEVAQLSQFDEELYKV 49 :.:||.|:.|.. ....||...|.|:.:.::.:....||.:|..:|:.. SYS_ECOLI 1 -MHRALSQFMLDLHTEQHGYSENYVPYLVNQDTLYGTGQLPKFAGDLFHT 49 SYSC_HUMAN 50 IGKGSEKSDDNSYDEKYLIATSEQPIAALHRDEWLRPEDLPIKYAGLSTC 99 ....|::|.::| .||.|:|.|:..|.|.|.:..:|||||....:.| SYS_ECOLI 50 -RPLEEEADTSNY---ALIPTAEVPLTNLVRGEIIDEDDLPIKMTAHTPC 95 SYSC_HUMAN 100 FRQEVGSHGRDTRGIFRVHQFEKIEQFVYSSPHDNKSWEMFEEMITTAEE 149 ||.|.||:||||||:.|:|||:|:|......|.| |....|||...||: SYS_ECOLI 96 FRSEAGSYGRDTRGLIRMHQFDKVEMVQIVRPED--SMAALEEMTGHAEK 143 SYSC_HUMAN 150 FYQSLGIPYHIVNIVSGSLNHAASKKLDLEAWFPG- 184 ..|.||:||..:.:.:|.:...|.|..|||.|.|. SYS_ECOLI 144 VLQLLGLPYRKIILCTGDMGFGACKTYDLEVWIPAQ 179 #--------------------------------------- #--------------------------------------- #======================================= # # Aligned_sequences: 2 # 1: SYSC_HUMAN # 2: SYS_METJA # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 219 # Identity: 44/219 (20.1%) # Similarity: 76/219 (34.7%) # Gaps: 67/219 (30.6%) # Score: 69.5 # # #======================================= SYSC_HUMAN 1 ---FLEQALIQYALRTLGSRGYIPIYTPFFMRKEVMQEVAQLSQFDEELY 47 .||:.:::..::.: |:.....|..:..|:|.::..|....|.:| SYS_METJA 1 LFRALEELIVEEVVKKI---GFQECLFPKLIPLEIMYKMRYLEGLPEGMY 47 SYSC_HUMAN 48 KV------------------IGK--GSEKSDDNSYDEKYLIATSE-QPIA 76 .| |.| ..||..:...|..|::|.:: :|.. SYS_METJA 48 YVCPPKREPELFKEFVNEMMIKKEIPIEKLKNLLRDPGYVLAPAQCEPFY 97 SYSC_HUMAN 77 ALHRDEWLRPEDLPIKYAGLS-TCFRQEVGSHGRDTRGIFRVHQFEKIEQ 125 .....|.: ..|.||.:...| ..:|.| |...||:.||::|.::|. SYS_METJA 98 QFFEGEVI-DVDKPIMFFDRSGWTYRWE----GGGARGLDRVNEFLRVEC 142 SYSC_HUMAN 126 FVYSSPHDNKSWEMFEEMITTAEEFYQSLGIPYHIVNIVSGSLNHAASKK 175 ....|| |..||......::.:.| ::| SYS_METJA 143 VWIGSP------EFVEETRDKTLKYAEKL------------------AEK 168 SYSC_HUMAN 176 LDLEAWFPG---------- 184 ||||.|... SYS_METJA 169 LDLEYWVEVGDDPFYLEGR 187 #--------------------------------------- #--------------------------------------- #======================================= # # Aligned_sequences: 2 # 1: SYSM_HUMAN # 2: SYS_ECOLI # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 182 # Identity: 53/182 (29.1%) # Similarity: 86/182 (47.3%) # Gaps: 9/182 ( 4.9%) # Score: 198.0 # # #======================================= SYSM_HUMAN 1 LQHGLVNFTFN-KLLRRGFTPMTVPDLLRGAVFEGCGMTPNANPSQIYNI 49 :...|..|..: ...:.|::...||.|:......|.|..|.. ...:::. SYS_ECOLI 1 MHRALSQFMLDLHTEQHGYSENYVPYLVNQDTLYGTGQLPKF-AGDLFHT 49 SYSM_HUMAN 50 DP----ARFKDLNLAGTAEVGLAGYFMDHTVAFRDLPVRMVCSSTCYRAE 95 .| |...:..|..||||.|........:...|||::|...:.|:|:| SYS_ECOLI 50 RPLEEEADTSNYALIPTAEVPLTNLVRGEIIDEDDLPIKMTAHTPCFRSE 99 SYSM_HUMAN 96 TNT-GQEPRGLYRVHHFTKVEMFGVTGPGLEQSSQLLEEFLSLQMEILTE 144 ..: |::.|||.|:|.|.||||..:..| |.|...|||......::|.. SYS_ECOLI 100 AGSYGRDTRGLIRMHQFDKVEMVQIVRP--EDSMAALEEMTGHAEKVLQL 147 SYSM_HUMAN 145 LGLHFRVLDMPTQELGLPAYRKFDIEAWMPGR 176 |||.:|.:.:.|.::|..|.:.:|:|.|:|.: SYS_ECOLI 148 LGLPYRKIILCTGDMGFGACKTYDLEVWIPAQ 179 #--------------------------------------- #--------------------------------------- #======================================= # # Aligned_sequences: 2 # 1: SYSM_HUMAN # 2: SYS_METJA # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 228 # Identity: 42/228 (18.4%) # Similarity: 68/228 (29.8%) # Gaps: 93/228 (40.8%) # Score: 53.5 # # #======================================= SYSM_HUMAN 1 LQHGLVNFTFNKLLRRGFTPMTVPDLLRGAVFEGCGMTPNANPSQI---- 46 |.|....:.|.::::...|:.| :.|...|.:| SYS_METJA 1 -------------LFRALEELIVEEVVKKIGFQEC-LFPKLIPLEIMYKM 36 SYSM_HUMAN 47 ----------YNI-----DPARFKDL--NLAGTAEVGL---------AGY 70 |.: :|..||:. .:....|:.: .|| SYS_METJA 37 RYLEGLPEGMYYVCPPKREPELFKEFVNEMMIKKEIPIEKLKNLLRDPGY 86 SYSM_HUMAN 71 ------------FMDHTVAFRDLPVRMV-CSSTCYRAETNTGQEPRGLYR 107 |.:..|...|.|:... .|...||.| |...|||.| SYS_METJA 87 VLAPAQCEPFYQFFEGEVIDVDKPIMFFDRSGWTYRWE---GGGARGLDR 133 SYSM_HUMAN 108 VHHFTKVEMFGVTGPGLEQSSQLLEEFLSLQMEILTELGLHFRVLDMPTQ 157 |:.|.:||...:..| :.:||.....::...:|. SYS_METJA 134 VNEFLRVECVWIGSP------EFVEETRDKTLKYAEKLA----------- 166 SYSM_HUMAN 158 ELGLPAYRKFDIEAW---------MPGR 176 .|.|:|.| :.|| SYS_METJA 167 -------EKLDLEYWVEVGDDPFYLEGR 187 #--------------------------------------- #--------------------------------------- #======================================= # # Aligned_sequences: 2 # 1: SYS_ECOLI # 2: SYS_METJA # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 216 # Identity: 44/216 (20.4%) # Similarity: 72/216 (33.3%) # Gaps: 66/216 (30.6%) # Score: 112.0 # # #======================================= SYS_ECOLI 1 MHRALSQFMLDLHTEQHGYSENYVPYLVNQDTLYGTGQLPKFAGDLFHTR 50 :.|||.:.:::...::.|:.|...|.|:..:.:|....|......:::.. SYS_METJA 1 LFRALEELIVEEVVKKIGFQECLFPKLIPLEIMYKMRYLEGLPEGMYYVC 50 SYS_ECOLI 51 PLEEEAD-------------------------TSNYALIPTAEVPLTNLV 75 |.:.|.: ...|.|.|....|..... SYS_METJA 51 PPKREPELFKEFVNEMMIKKEIPIEKLKNLLRDPGYVLAPAQCEPFYQFF 100 SYS_ECOLI 76 RGEIIDEDDLPIKMTAHTPCFRSEAGSY---GRDTRGLIRMHQFDKVEMV 122 .||:||.|. ||.. |.....:| |...|||.|:::|.:||.| SYS_METJA 101 EGEVIDVDK-PIMF------FDRSGWTYRWEGGGARGLDRVNEFLRVECV 143 SYS_ECOLI 123 QIVRPEDSMAALEEMTGHAEKVLQLLGLPYRKIILCTGDMGFGACKTYDL 172 .|..||......::...:|||:.:.| || SYS_METJA 144 WIGSPEFVEETRDKTLKYAEKLAEKL----------------------DL 171 SYS_ECOLI 173 EVWIPAQ--------- 179 |.|:... SYS_METJA 172 EYWVEVGDDPFYLEGR 187 #--------------------------------------- |
######################################## # Program: needle # Rundate: Sun Mar 25 2007 14:01:41 # Commandline: needle # [-asequence] SYSC_HUMAN_2.fasta # [-bsequence] SYSM_HUMAN_2.fasta # -gapopen 10 # -gapextend 0.5 # [-outfile] stdout # Align_format: srspair # Report_file: stdout ######################################## #======================================= # # Aligned_sequences: 2 # 1: SYSC_HUMAN # 2: SYSM_HUMAN # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 143 # Identity: 26/143 (18.2%) # Similarity: 42/143 (29.4%) # Gaps: 57/143 (39.9%) # Score: 12.5 # # #======================================= SYSC_HUMAN 1 MVLDLDLF-RVDKGGDPALIRETQEKRFKD-PGLVDQLVKADSEWRRCRF 48 ||::.| ...:....||.....|.|..| |.:: |.|:..|. SYSM_HUMAN 1 --LDIERFCACPEEAAHALELRKGELRSADLPAII-------STWQELRQ 41 SYSC_HUMAN 49 RADNLNKLKNLCSKTIGEKMKKKEPV---------GDDESVPENVLSFDD 89 ..:.:..|:. ||....|.| |:.:..|: :.. SYSM_HUMAN 42 LQEQIRSLEE-------EKAAVTEAVRALLANQDSGEVQQDPK----YQG 80 SYSC_HUMAN 90 LTADALANLKVSQIKK--VRLLIDE------------------ 112 |.| :..:|:| |.|...| SYSM_HUMAN 81 LRA------RGREIRKELVHLYPREAQLEEQFYLQALKLPNQT 117 #--------------------------------------- #--------------------------------------- #======================================= # # Aligned_sequences: 2 # 1: SYSC_HUMAN # 2: SYS_ECOLI # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 121 # Identity: 31/121 (25.6%) # Similarity: 55/121 (45.5%) # Gaps: 23/121 (19.0%) # Score: 54.0 # # #======================================= SYSC_HUMAN 1 MVLDLDLFRVDKGGDPALIRETQEKR-FK-DPGLVDQLVKADSEWRRCRF 48 :||.:|.| .:|..:.|...:| || | ||:|...:...:..:. SYS_ECOLI 1 -MLDPNLLR----NEPDAVAEKLARRGFKLD---VDKLGALEERRKVLQV 42 SYSC_HUMAN 49 RADNLNKLKNLCSKTIGEKMKKKEPVGDDESVPENVLSFDDLTA-----D 93 :.:||...:|..||:||:...:.|.: :...:..|.|. ::|.| | SYS_ECOLI 43 KTENLQAERNSRSKSIGQAKARGEDI-EPLRLEVNKLG-EELDAAKAELD 90 SYSC_HUMAN 94 ALANLKVSQIKKVRLLIDE-- 112 ||. ::|:.:.|.|.. SYS_ECOLI 91 ALQ----AEIRDIALTIPNLP 107 #--------------------------------------- #--------------------------------------- #======================================= # # Aligned_sequences: 2 # 1: SYSM_HUMAN # 2: SYS_ECOLI # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 147 # Identity: 24/147 (16.3%) # Similarity: 43/147 (29.3%) # Gaps: 70/147 (47.6%) # Score: 35.5 # # #======================================= SYSM_HUMAN 1 ------------------------LDIERFCACPEEAAHALELRKGEL-- 24 ||:::..|. ||....|:::...| SYS_ECOLI 1 MLDPNLLRNEPDAVAEKLARRGFKLDVDKLGAL-EERRKVLQVKTENLQA 49 SYSM_HUMAN 25 ----RSADLPAIISTWQELRQLQEQIRSLEEEKAAVTEAVRALLANQDSG 70 ||..:....:..:::..|:.::..|.|| .:|.:|.| SYS_ECOLI 50 ERNSRSKSIGQAKARGEDIEPLRLEVNKLGEE----LDAAKAEL------ 89 SYSM_HUMAN 71 EVQQDPKYQGLRARGREIRKELVHLYPREAQLEEQFYLQALKLPNQT 117 ..|:|..|:| ||.:||.. SYS_ECOLI 90 --------DALQAEIRDI---------------------ALTIPNLP 107 #--------------------------------------- #--------------------------------------- |
Таблицa, отражающая попарное сходство доменов (указаны проценты идентичности):
SYSC_HUMAN | SYSM_HUMAN | SYS_ECOLI | SYS_METJA | |
SYSC_HUMAN | 100 | |||
SYSM_HUMAN | 26.9 | 100 | ||
SYS_ECOLI | 36.0 | 16.3 | 100 | |
SYS_METJA | 20.1 | 18.4 | 20.4 | 100 |
SYSC_HUMAN | SYSM_HUMAN | SYS_ECOLI | |
SYSC_HUMAN | 100 | ||
SYSM_HUMAN | 18.2 | 100 | |
SYS_ECOLI | 25.6 | 16.3 | 100 |
Итак, что получается: в обоих случаях (для обоих доменов), процент идентичности очень невысокий: от 16.3 (минимум) до 36.0 (максимум) %, в среднем - чуть больше 20%.
причем процент идентичности для далеких организмов (кишечная палочка и человек, например) оказывается выше, чем процент идентичности последовательностей двух белков человека. Это свидетельствует о низкой
консервативности последовательностей рассматриваемых доменов (... последовательностей ферментов с одинаковым кодом из эволюционно далеких организмов ). Однако для сохранения
специфической ферментативной функции достаточно сохранения 3х консервативных участков (соответствующих сайтам связывания и каталитической активности (несущие консервативные аминокислотные остатки, ответственные за связывание с субстратом и катализ) - оба свойства высокоспецифичны; по данным
S Cusack, M Hartlein, and R Leberman).
Низкая консервативность последовательностей не влечет "несовпадения" 3D-структур (при соответствующем совмещении); для сохранения ферментативных (высокоспецифичных) функций необходимым является стабильность каталитического ядра (и "центра" связывания; "центра" узнавания), их пространственная ориентация, обеспечиваемые
укладкой формирующих элементов вторичной структуры.