Код исследуемого фермента взят из таблицы.
Задача: с помощью SRS по коду ЕС 6.1.1.11 найти в UniProt все ферменты из 3-х хорошо изученных модельных организмов - кишечной палочки Escherichia coli K-12, археи Methanococcus jannaschii и человека.
Т.к. сначала создать "целостный" запрос, на который сразу бы выдавались только интересующие находки не получалось, был выбран такой порядок действий:
Однако рациональнее все-таки сразу использовать правильный запрос: ([uniprot-ECNumber:6.1.1.11] & (([uniprot-ID:*_ECOLI] | [uniprot-ID:*_HUMAN]) | [uniprot-ID:*_METJA])) =
6.1.1.11 & (*_ECOLI | *_HUMAN | *_METJA).
Теперь предстоит сравнить доменную структуру найденных белков (! - сравнивать только домены Pfam); для этого используется вариант просмотра результата "View results using: SW_InterProMatches", который позволяет быстро посмотреть на все мотивы в последовательностях. По полученным данным заполняется таблица такого вида:
Сравнение доменной структуры ферментов из далеких организмов: Escherichia coli K-12, археи Methanococcus jannaschii и человека.
|
UniProt ID |
AC |
Имя гена |
Первый домен |
Второй домен |
|||
|
Идентификатор Pfam |
Положение в последовательности
|
Идентификатор Pfam |
Положение в последовательности
|
||||
| 1 | SYSC_HUMAN | P49591, Q9NSE3 | SARS (син. SERS) | PF00587 | 202-385 | PF02403 | 1-112 |
| 2 | SYSM_HUMAN | Q9NP81, Q9BVP3 | SARS2 (син. SARSM) | PF00587 | 238-413 | PF02403 | 58-174 |
| 3 | SYS_ECOLI | P0A8L1, P09156 | SERS | PF00587 | 172-350 | PF02403 | 1-107 |
| 4 | SYS_METJA | Q58477 | SERS | PF00587 | 226-412 | - | - |
| 5 | Q8N208_HUMAN | Q8N208 | не указано | PF00587 | 108-152 | - | - |
| 6 | A2UNU9_ECOLI | A2UNU9 | не указано | информация о доменной структуре отсутствует | |||
Комментарий к увиденному: для белка A2UNU9_ECOLI доменная структура не приведена, смотрим соответствующий документ UniProt (почему нет доменной структуры?):
Затем нужно оценить сходство последовательностей аминокислот в гомологичных доменах. Это можно сделать двумя способами:
Я выбрала 1ый метод.
Итак, используемые команды (на примере SYSC_HUMAN):
seqret -help -verbose- чтобы узнать о параметрах программы;
seqret sw:P49591 -sbegin1 202 -send1 385 stdout >> SYSC_HUMAN.fasta- для получения нужного для последующего выравнивания участка последовательности SYSC_HUMAN;
needle SYSC_HUMAN.fasta SYSM_HUMAN.fasta -gapopen 10 -gapextend 0.5 stdout >> SYSC_HUMAN-SYSM_HUMAN.txt- для получения попарного выравнивания последовательностей аминокислот в гомологичных доменах;
cat SYSC_HUMAN-SYSM_HUMAN.txt >> PF00587_aln.txt- для получения всех попарных выравниваний в одном файле;
chmod +x pair_aln.chmod ./pair_aln.chmod- чтобы сделать скрипт исполняемым.
На основании этого составлен скрипт для получения всех попарных выравниваний в одном файле.
########################################
# Program: needle
# Rundate: Sun Mar 25 2007 14:01:41
# Commandline: needle
# [-asequence] SYSC_HUMAN_1.fasta
# [-bsequence] SYSM_HUMAN_1.fasta
# -gapopen 10
# -gapextend 0.5
# [-outfile] stdout
# Align_format: srspair
# Report_file: stdout
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: SYSC_HUMAN
# 2: SYSM_HUMAN
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 186
# Identity: 50/186 (26.9%)
# Similarity: 90/186 (48.4%)
# Gaps: 12/186 ( 6.5%)
# Score: 230.5
#
#
#=======================================
SYSC_HUMAN 1 FLEQALIQYALRTLGSRGYIPIYTPFFMRKEVMQEVAQLSQFD-EELYKV 49
|:..|:.:....|..||:.|:..|..:|..|.:........: .::|.:
SYSM_HUMAN 1 -LQHGLVNFTFNKLLRRGFTPMTVPDLLRGAVFEGCGMTPNANPSQIYNI 49
SYSC_HUMAN 50 IGKGSEKSDDNSYDEKYLIATSEQPIAALHRDEWLRPEDLPIKYAGLSTC 99
|...:.:..|..|:|..:|....|..:...|||::....|||
SYSM_HUMAN 50 --------DPARFKDLNLAGTAEVGLAGYFMDHTVAFRDLPVRMVCSSTC 91
SYSC_HUMAN 100 FRQEVGSHGRDTRGIFRVHQFEKIEQFVYSSPHDNKSWEMFEEMITTAEE 149
:|.|..: |::.||::|||.|.|:|.|..:.|...:|.::.||.::...|
SYSM_HUMAN 92 YRAETNT-GQEPRGLYRVHHFTKVEMFGVTGPGLEQSSQLLEEFLSLQME 140
SYSC_HUMAN 150 FYQSLGIPYHIVNIVSGSLNHAASKKLDLEAWFPG- 184
....||:.:.::::.:..|...|.:|.|:|||.||
SYSM_HUMAN 141 ILTELGLHFRVLDMPTQELGLPAYRKFDIEAWMPGR 176
#---------------------------------------
#---------------------------------------
#=======================================
#
# Aligned_sequences: 2
# 1: SYSC_HUMAN
# 2: SYS_ECOLI
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 186
# Identity: 67/186 (36.0%)
# Similarity: 98/186 (52.7%)
# Gaps: 9/186 ( 4.8%)
# Score: 294.5
#
#
#=======================================
SYSC_HUMAN 1 FLEQALIQYALRT-LGSRGYIPIYTPFFMRKEVMQEVAQLSQFDEELYKV 49
:.:||.|:.|.. ....||...|.|:.:.::.:....||.:|..:|:..
SYS_ECOLI 1 -MHRALSQFMLDLHTEQHGYSENYVPYLVNQDTLYGTGQLPKFAGDLFHT 49
SYSC_HUMAN 50 IGKGSEKSDDNSYDEKYLIATSEQPIAALHRDEWLRPEDLPIKYAGLSTC 99
....|::|.::| .||.|:|.|:..|.|.|.:..:|||||....:.|
SYS_ECOLI 50 -RPLEEEADTSNY---ALIPTAEVPLTNLVRGEIIDEDDLPIKMTAHTPC 95
SYSC_HUMAN 100 FRQEVGSHGRDTRGIFRVHQFEKIEQFVYSSPHDNKSWEMFEEMITTAEE 149
||.|.||:||||||:.|:|||:|:|......|.| |....|||...||:
SYS_ECOLI 96 FRSEAGSYGRDTRGLIRMHQFDKVEMVQIVRPED--SMAALEEMTGHAEK 143
SYSC_HUMAN 150 FYQSLGIPYHIVNIVSGSLNHAASKKLDLEAWFPG- 184
..|.||:||..:.:.:|.:...|.|..|||.|.|.
SYS_ECOLI 144 VLQLLGLPYRKIILCTGDMGFGACKTYDLEVWIPAQ 179
#---------------------------------------
#---------------------------------------
#=======================================
#
# Aligned_sequences: 2
# 1: SYSC_HUMAN
# 2: SYS_METJA
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 219
# Identity: 44/219 (20.1%)
# Similarity: 76/219 (34.7%)
# Gaps: 67/219 (30.6%)
# Score: 69.5
#
#
#=======================================
SYSC_HUMAN 1 ---FLEQALIQYALRTLGSRGYIPIYTPFFMRKEVMQEVAQLSQFDEELY 47
.||:.:::..::.: |:.....|..:..|:|.::..|....|.:|
SYS_METJA 1 LFRALEELIVEEVVKKI---GFQECLFPKLIPLEIMYKMRYLEGLPEGMY 47
SYSC_HUMAN 48 KV------------------IGK--GSEKSDDNSYDEKYLIATSE-QPIA 76
.| |.| ..||..:...|..|::|.:: :|..
SYS_METJA 48 YVCPPKREPELFKEFVNEMMIKKEIPIEKLKNLLRDPGYVLAPAQCEPFY 97
SYSC_HUMAN 77 ALHRDEWLRPEDLPIKYAGLS-TCFRQEVGSHGRDTRGIFRVHQFEKIEQ 125
.....|.: ..|.||.:...| ..:|.| |...||:.||::|.::|.
SYS_METJA 98 QFFEGEVI-DVDKPIMFFDRSGWTYRWE----GGGARGLDRVNEFLRVEC 142
SYSC_HUMAN 126 FVYSSPHDNKSWEMFEEMITTAEEFYQSLGIPYHIVNIVSGSLNHAASKK 175
....|| |..||......::.:.| ::|
SYS_METJA 143 VWIGSP------EFVEETRDKTLKYAEKL------------------AEK 168
SYSC_HUMAN 176 LDLEAWFPG---------- 184
||||.|...
SYS_METJA 169 LDLEYWVEVGDDPFYLEGR 187
#---------------------------------------
#---------------------------------------
#=======================================
#
# Aligned_sequences: 2
# 1: SYSM_HUMAN
# 2: SYS_ECOLI
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 182
# Identity: 53/182 (29.1%)
# Similarity: 86/182 (47.3%)
# Gaps: 9/182 ( 4.9%)
# Score: 198.0
#
#
#=======================================
SYSM_HUMAN 1 LQHGLVNFTFN-KLLRRGFTPMTVPDLLRGAVFEGCGMTPNANPSQIYNI 49
:...|..|..: ...:.|::...||.|:......|.|..|.. ...:::.
SYS_ECOLI 1 MHRALSQFMLDLHTEQHGYSENYVPYLVNQDTLYGTGQLPKF-AGDLFHT 49
SYSM_HUMAN 50 DP----ARFKDLNLAGTAEVGLAGYFMDHTVAFRDLPVRMVCSSTCYRAE 95
.| |...:..|..||||.|........:...|||::|...:.|:|:|
SYS_ECOLI 50 RPLEEEADTSNYALIPTAEVPLTNLVRGEIIDEDDLPIKMTAHTPCFRSE 99
SYSM_HUMAN 96 TNT-GQEPRGLYRVHHFTKVEMFGVTGPGLEQSSQLLEEFLSLQMEILTE 144
..: |::.|||.|:|.|.||||..:..| |.|...|||......::|..
SYS_ECOLI 100 AGSYGRDTRGLIRMHQFDKVEMVQIVRP--EDSMAALEEMTGHAEKVLQL 147
SYSM_HUMAN 145 LGLHFRVLDMPTQELGLPAYRKFDIEAWMPGR 176
|||.:|.:.:.|.::|..|.:.:|:|.|:|.:
SYS_ECOLI 148 LGLPYRKIILCTGDMGFGACKTYDLEVWIPAQ 179
#---------------------------------------
#---------------------------------------
#=======================================
#
# Aligned_sequences: 2
# 1: SYSM_HUMAN
# 2: SYS_METJA
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 228
# Identity: 42/228 (18.4%)
# Similarity: 68/228 (29.8%)
# Gaps: 93/228 (40.8%)
# Score: 53.5
#
#
#=======================================
SYSM_HUMAN 1 LQHGLVNFTFNKLLRRGFTPMTVPDLLRGAVFEGCGMTPNANPSQI---- 46
|.|....:.|.::::...|:.| :.|...|.:|
SYS_METJA 1 -------------LFRALEELIVEEVVKKIGFQEC-LFPKLIPLEIMYKM 36
SYSM_HUMAN 47 ----------YNI-----DPARFKDL--NLAGTAEVGL---------AGY 70
|.: :|..||:. .:....|:.: .||
SYS_METJA 37 RYLEGLPEGMYYVCPPKREPELFKEFVNEMMIKKEIPIEKLKNLLRDPGY 86
SYSM_HUMAN 71 ------------FMDHTVAFRDLPVRMV-CSSTCYRAETNTGQEPRGLYR 107
|.:..|...|.|:... .|...||.| |...|||.|
SYS_METJA 87 VLAPAQCEPFYQFFEGEVIDVDKPIMFFDRSGWTYRWE---GGGARGLDR 133
SYSM_HUMAN 108 VHHFTKVEMFGVTGPGLEQSSQLLEEFLSLQMEILTELGLHFRVLDMPTQ 157
|:.|.:||...:..| :.:||.....::...:|.
SYS_METJA 134 VNEFLRVECVWIGSP------EFVEETRDKTLKYAEKLA----------- 166
SYSM_HUMAN 158 ELGLPAYRKFDIEAW---------MPGR 176
.|.|:|.| :.||
SYS_METJA 167 -------EKLDLEYWVEVGDDPFYLEGR 187
#---------------------------------------
#---------------------------------------
#=======================================
#
# Aligned_sequences: 2
# 1: SYS_ECOLI
# 2: SYS_METJA
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 216
# Identity: 44/216 (20.4%)
# Similarity: 72/216 (33.3%)
# Gaps: 66/216 (30.6%)
# Score: 112.0
#
#
#=======================================
SYS_ECOLI 1 MHRALSQFMLDLHTEQHGYSENYVPYLVNQDTLYGTGQLPKFAGDLFHTR 50
:.|||.:.:::...::.|:.|...|.|:..:.:|....|......:::..
SYS_METJA 1 LFRALEELIVEEVVKKIGFQECLFPKLIPLEIMYKMRYLEGLPEGMYYVC 50
SYS_ECOLI 51 PLEEEAD-------------------------TSNYALIPTAEVPLTNLV 75
|.:.|.: ...|.|.|....|.....
SYS_METJA 51 PPKREPELFKEFVNEMMIKKEIPIEKLKNLLRDPGYVLAPAQCEPFYQFF 100
SYS_ECOLI 76 RGEIIDEDDLPIKMTAHTPCFRSEAGSY---GRDTRGLIRMHQFDKVEMV 122
.||:||.|. ||.. |.....:| |...|||.|:::|.:||.|
SYS_METJA 101 EGEVIDVDK-PIMF------FDRSGWTYRWEGGGARGLDRVNEFLRVECV 143
SYS_ECOLI 123 QIVRPEDSMAALEEMTGHAEKVLQLLGLPYRKIILCTGDMGFGACKTYDL 172
.|..||......::...:|||:.:.| ||
SYS_METJA 144 WIGSPEFVEETRDKTLKYAEKLAEKL----------------------DL 171
SYS_ECOLI 173 EVWIPAQ--------- 179
|.|:...
SYS_METJA 172 EYWVEVGDDPFYLEGR 187
#---------------------------------------
|
########################################
# Program: needle
# Rundate: Sun Mar 25 2007 14:01:41
# Commandline: needle
# [-asequence] SYSC_HUMAN_2.fasta
# [-bsequence] SYSM_HUMAN_2.fasta
# -gapopen 10
# -gapextend 0.5
# [-outfile] stdout
# Align_format: srspair
# Report_file: stdout
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: SYSC_HUMAN
# 2: SYSM_HUMAN
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 143
# Identity: 26/143 (18.2%)
# Similarity: 42/143 (29.4%)
# Gaps: 57/143 (39.9%)
# Score: 12.5
#
#
#=======================================
SYSC_HUMAN 1 MVLDLDLF-RVDKGGDPALIRETQEKRFKD-PGLVDQLVKADSEWRRCRF 48
||::.| ...:....||.....|.|..| |.:: |.|:..|.
SYSM_HUMAN 1 --LDIERFCACPEEAAHALELRKGELRSADLPAII-------STWQELRQ 41
SYSC_HUMAN 49 RADNLNKLKNLCSKTIGEKMKKKEPV---------GDDESVPENVLSFDD 89
..:.:..|:. ||....|.| |:.:..|: :..
SYSM_HUMAN 42 LQEQIRSLEE-------EKAAVTEAVRALLANQDSGEVQQDPK----YQG 80
SYSC_HUMAN 90 LTADALANLKVSQIKK--VRLLIDE------------------ 112
|.| :..:|:| |.|...|
SYSM_HUMAN 81 LRA------RGREIRKELVHLYPREAQLEEQFYLQALKLPNQT 117
#---------------------------------------
#---------------------------------------
#=======================================
#
# Aligned_sequences: 2
# 1: SYSC_HUMAN
# 2: SYS_ECOLI
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 121
# Identity: 31/121 (25.6%)
# Similarity: 55/121 (45.5%)
# Gaps: 23/121 (19.0%)
# Score: 54.0
#
#
#=======================================
SYSC_HUMAN 1 MVLDLDLFRVDKGGDPALIRETQEKR-FK-DPGLVDQLVKADSEWRRCRF 48
:||.:|.| .:|..:.|...:| || | ||:|...:...:..:.
SYS_ECOLI 1 -MLDPNLLR----NEPDAVAEKLARRGFKLD---VDKLGALEERRKVLQV 42
SYSC_HUMAN 49 RADNLNKLKNLCSKTIGEKMKKKEPVGDDESVPENVLSFDDLTA-----D 93
:.:||...:|..||:||:...:.|.: :...:..|.|. ::|.| |
SYS_ECOLI 43 KTENLQAERNSRSKSIGQAKARGEDI-EPLRLEVNKLG-EELDAAKAELD 90
SYSC_HUMAN 94 ALANLKVSQIKKVRLLIDE-- 112
||. ::|:.:.|.|..
SYS_ECOLI 91 ALQ----AEIRDIALTIPNLP 107
#---------------------------------------
#---------------------------------------
#=======================================
#
# Aligned_sequences: 2
# 1: SYSM_HUMAN
# 2: SYS_ECOLI
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 147
# Identity: 24/147 (16.3%)
# Similarity: 43/147 (29.3%)
# Gaps: 70/147 (47.6%)
# Score: 35.5
#
#
#=======================================
SYSM_HUMAN 1 ------------------------LDIERFCACPEEAAHALELRKGEL-- 24
||:::..|. ||....|:::...|
SYS_ECOLI 1 MLDPNLLRNEPDAVAEKLARRGFKLDVDKLGAL-EERRKVLQVKTENLQA 49
SYSM_HUMAN 25 ----RSADLPAIISTWQELRQLQEQIRSLEEEKAAVTEAVRALLANQDSG 70
||..:....:..:::..|:.::..|.|| .:|.:|.|
SYS_ECOLI 50 ERNSRSKSIGQAKARGEDIEPLRLEVNKLGEE----LDAAKAEL------ 89
SYSM_HUMAN 71 EVQQDPKYQGLRARGREIRKELVHLYPREAQLEEQFYLQALKLPNQT 117
..|:|..|:| ||.:||..
SYS_ECOLI 90 --------DALQAEIRDI---------------------ALTIPNLP 107
#---------------------------------------
#---------------------------------------
|
Таблицa, отражающая попарное сходство доменов (указаны проценты идентичности):
| SYSC_HUMAN | SYSM_HUMAN | SYS_ECOLI | SYS_METJA | |
| SYSC_HUMAN | 100 | |||
| SYSM_HUMAN | 26.9 | 100 | ||
| SYS_ECOLI | 36.0 | 16.3 | 100 | |
| SYS_METJA | 20.1 | 18.4 | 20.4 | 100 |
| SYSC_HUMAN | SYSM_HUMAN | SYS_ECOLI | |
| SYSC_HUMAN | 100 | ||
| SYSM_HUMAN | 18.2 | 100 | |
| SYS_ECOLI | 25.6 | 16.3 | 100 |
Итак, что получается: в обоих случаях (для обоих доменов), процент идентичности очень невысокий: от 16.3 (минимум) до 36.0 (максимум) %, в среднем - чуть больше 20%.
причем процент идентичности для далеких организмов (кишечная палочка и человек, например) оказывается выше, чем процент идентичности последовательностей двух белков человека. Это свидетельствует о низкой
консервативности последовательностей рассматриваемых доменов (... последовательностей ферментов с одинаковым кодом из эволюционно далеких организмов ). Однако для сохранения
специфической ферментативной функции достаточно сохранения 3х консервативных участков (соответствующих сайтам связывания и каталитической активности (несущие консервативные аминокислотные остатки, ответственные за связывание с субстратом и катализ) - оба свойства высокоспецифичны; по данным
S Cusack, M Hartlein, and R Leberman).
Низкая консервативность последовательностей не влечет "несовпадения" 3D-структур (при соответствующем совмещении); для сохранения ферментативных (высокоспецифичных) функций необходимым является стабильность каталитического ядра (и "центра" связывания; "центра" узнавания), их пространственная ориентация, обеспечиваемые
укладкой формирующих элементов вторичной структуры.