|
Пакет EMBOSS. Программы парного выравнивания
Задание 1.Поиск гипотетических гомологов изучаемого белка в разных банках
Таблица 1. Результаты поиска гипотетических гомологов белка RNPH_BACSU
|
Поиск по БД Swiss-Prot |
Поиск по БД PDB |
Поиск по БД "nr" |
1. Лучшая находка (в принципе должна соответствовать заданному белку) |
Accession |
P28619.1 ( 1OYP цепи A,B,C,D,E,F
1OYR цепи A,B,C,D,E,F )
|
1OYP цепи A,B,C,D,E,F
1OYR цепи A,B,C,D,E,F |
NP_390715.1 ( 1OYP цепи A,B,C,D,E,F
1OYR цепи A,B,C,D,E,F ) |
E-value |
1e-139 |
7e-141 |
2e-138 |
Вес (в битах) |
495 bits |
495 bits |
495 bits |
Процент идентичности |
100% |
100% |
100% |
2. Сколько хороших кандидатов в гомологи найдено?
(число находок в списке описаний с E-value < 1E-10)
| 337 |
17 |
1313 |
3.
"Худшая из хороших" находка (последняя в выдаче с E-value < 1)
|
Номер находки в списке описаний |
955 |
37 |
998(все последующие находки не открываются, поэтому я взяла эту) |
Accession |
Q7V606.1 |
2NN6_F |
YP_001762913.1 |
E-value |
0.76 |
0.24 |
1e-63 |
Вес (в битах) |
34.3 bits |
32.0 bits |
246 bits |
% идентичности |
24% |
38% |
57% |
% сходства |
44% |
51% |
70% |
Длина выравнивания |
204 |
37 |
230 |
Координаты выравнивания (от-до, в запросе и в находке) |
2-196 ( в запросе)
325-512 ( в находке) |
6-42 ( в запросе)
31-67 ( в находке) |
2-230 ( в запросе)
6-233 ( в находке) |
Число гэпов
| 25 |
0 |
3 |
Краткий комментарий к таблице :
- Мне удалось найти исходный белок в Swiss-Prot и "nr"и его структуру в PDB
- Число явных гомологов (E-value < 1e-10)
при поиске по разным БД различно , т.к. в разных БД находится различное число последовательностей , а их число учитывается при расчете E-value .
- Swiss-Prot
Всего находок:985
E-value самой последней находки:9.8
Изначально число находок было лимитировано и значением E-value ,
и заданным по умолчанию предельным размером выдачи , но я заранее изменила предельный размер выдачи на максимальный( 20000), и он перестал быть лимитирующим фактором.
PDB
Всего находок:48
E-value самой последней находки:8.3
В данном случае число находок было лимитировано значением E-value ( по умолчанию предельно допустимое значение E-value было 10)
"nr"
Всего находок: 3671
E-value самой последней находки: 9.8
Изначально число находок было лимитировано и значением E-value ,
и заданным по умолчанию предельным размером выдачи , но я заранее изменила предельный размер выдачи на максимальный( 20000), и он перестал быть лимитирующим фактором.
Задание 2.Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
Таблица 2. Результат поиска гипотетических гомологов белка RNPH_BACSU в царстве Eukaryota
|
Поиск по "nr" |
Поиск по Swiss-Prot |
Поиск по PDB |
Accession |
CBI60875.1 |
A8WQQ5.1 (EXOS4_CAEBR) |
2NN6_B |
E-value |
2e-44 |
2e-10 |
1e-07 |
Вес (в битах) |
182 bits |
64.7 bits |
52.0 bits |
% идентичности |
68% |
30% |
28% |
% сходства |
83% |
43% |
45% |
Длина выравнивания |
130 |
174 |
209 |
Координаты выравнивания (от-до, в запросе и в находке) |
6-134( в запросе)
19-148 ( в находке) |
1-158( в запросе)
9-168 ( в находке) |
2-202( в запросе)
17-204 ( в находке) |
Число гэпов
| 1 |
30 |
29 |
Задание 3. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями
Blast alignment
Aligned_sequences: 2
1: RNPH_BACSU
2: EXOS4_CAEBR
Matrix: BLOSUM62
Gap_penalty: 11.0
Extend_penalty: 1.0
Length=240
Score = 64.7 bits (156)
Expect = 2e-10
Method: Compositional matrix adjust.
Identities = 52/174 (30%)
Positives = 74/174 (43%)
Gaps = 30/174 (17%)
Query 1 MRHDGRQHDELRPITFDLDFISHPEGSVLITAGNTKVIC----------NASVEDRVPPF 50
R DGR+ ++R I L + EGS + GNTKV+C + +EDR
Sbjct 9 FRMDGRRPAQIRNINTRLGLNRNAEGSCYLEHGNTKVLCAVYGPYESKASKRLEDRCAIV 68
Query 51 LRGGGKGWITAEYSMLPRATNQRTIRESSKGKISGRTMEIQRLIGRALRAVVDLEKLGER 110
+ + T +S L R R R+S+ EI RL+ +A +V+ E
Sbjct 69 CQ-----YSTTTFSGLERKNRPRGDRKST---------EISRLLEKAFESVILTESFPRS 114
Query 111 TIWIDCDVIQADGGTRTASITGAFLAMAIA------IGKLIKAGTIKTNPITDF 158
I I C+VIQ DG A + LA+A A I G ++T PI D
Sbjct 115 QIDIFCEVIQGDGSNLAACVNATSLALADAGIPMKGIASAATCGIVETKPIVDL 168
Оптимальное частичное выравнивание(water)
Aligned_sequences: 2
1: RNPH_BACSU
2: EXOS4_CAEBR
Matrix: EBLOSUM62
Gap_penalty: 11.0
Extend_penalty: 1.0
Length: 172
Identity: 52/172 (30.2%)
Similarity: 74/172 (43.0%)
Gaps: 30/172 (17.4%)
Score: 151.0
RNPH_BACSU 2 RHDGRQHDELRPITFDLDFISHPEGSVLITAGNTKVIC----------NA 41
|.|||:..::|.|...|....:.|||..:..|||||:| :.
EXOS4_CAEBR 10 RMDGRRPAQIRNINTRLGLNRNAEGSCYLEHGNTKVLCAVYGPYESKASK 59
RNPH_BACSU 42 SVEDRVPPFLRGGGKGWITAEYSMLPRATNQRTIRESSKGKISGRTMEIQ 91
.:|||.....: :.|..:|.|.|....|..|:|: ||.
EXOS4_CAEBR 60 RLEDRCAIVCQ-----YSTTTFSGLERKNRPRGDRKST---------EIS 95
RNPH_BACSU 92 RLIGRALRAVVDLEKLGERTIWIDCDVIQADGGTRTASITGAFLAMAIA- 140
||:.:|..:|:..|......|.|.|:|||.||....|.:....||:|.|
EXOS4_CAEBR 96 RLLEKAFESVILTESFPRSQIDIFCEVIQGDGSNLAACVNATSLALADAG 145
RNPH_BACSU 141 -----IGKLIKAGTIKTNPITD 157
|......|.::|.||.|
EXOS4_CAEBR 146 IPMKGIASAATCGIVETKPIVD 167
Сравнение оптимального частичного выравнивания(water) и выравнивания , сделанного программой Blast: Значения Score различны,т.к. BLAST накладывает штраф "за удлиннение пробела" и на первый гэп тоже.Сами выравнивания одинаковы за исключением того,что в Blast взято на один элемент больше и вначале , и в конце ( т.е. если в оптимальном частичном выравнивании координаты :2-157 у белка RNPH_BACSU и 10-167 у белка EXOS4_CAEBR , то в Blast : 1-158 у белка RNPH_BACSU и 9-168 у белка EXOS4_CAEBR)В итоге, длина у них различается на 2 элемента , и различны проценты идентичности и сходства
Оптимальное полное выравнивание(needle)
Aligned_sequences: 2
1: RNPH_BACSU
2: EXOS4_CAEBR
Matrix: EBLOSUM62
Gap_penalty: 11.0
Extend_penalty: 1.0
Length: 280
Identity: 66/280 (23.6%)
Similarity: 109/280 (38.9%)
Gaps: 75/280 (26.8%)
Score: 129.0
RNPH_BACSU 1 --------MRHDGRQHDELRPITFDLDFISHPEGSVLITAGNTKVIC--- 39
.|.|||:..::|.|...|....:.|||..:..|||||:|
EXOS4_CAEBR 1 MSIISEHGFRMDGRRPAQIRNINTRLGLNRNAEGSCYLEHGNTKVLCAVY 50
RNPH_BACSU 40 -------NASVEDRVPPFLRGGGKGWITAEYSMLPRATNQRTIRESSKGK 82
:..:|||.....: :.|..:|.|.|....|..|:|:
EXOS4_CAEBR 51 GPYESKASKRLEDRCAIVCQ-----YSTTTFSGLERKNRPRGDRKST--- 92
RNPH_BACSU 83 ISGRTMEIQRLIGRALRAVVDLEKLGERTIWIDCDVIQADGGTRTASITG 132
||.||:.:|..:|:..|......|.|.|:|||.||....|.:..
EXOS4_CAEBR 93 ------EISRLLEKAFESVILTESFPRSQIDIFCEVIQGDGSNLAACVNA 136
RNPH_BACSU 133 AFLAMAIA------IGKLIKAGTIKTNPI--------TDFLAAISVG--I 166
..||:|.| |......|.::|.|| ||.|..:::. .
EXOS4_CAEBR 137 TSLALADAGIPMKGIASAATCGIVETKPIVDLTSREETDLLPRVTLATIC 186
RNPH_BACSU 167 DKEQGILLDLNYEEDSSAEVD-MNVIMTGSGRFVELQGTGEEATFSREDL 215
.:::.||::| .:...:| ::|:| :.|..:..|:
EXOS4_CAEBR 187 GRDEVILVEL----QNRLHIDHLSVVM-------------DAAKATCADV 219
RNPH_BACSU 216 NGLLGLAEKGIQELIDKQKEVLGDSLPELK 245
...|.:. .|:.:.....:||:
EXOS4_CAEBR 220 YECLAVV---AQQHLKACAPILGN------ 240
Сравнение оптимального полного выравнивания(needle) и выравнивания , сделанного программой Blast: < BR> Значения Score различны,т.к сильно отличаются сами выравнивания, различно число гэпов и т.д.
Сами выравнивания: в полном выравнивании имеется участок с координатами 1-8 ( EXOS4_CAEBR ), а в выравнивании Blast его нет;
участки с координатами 1-155 (RNPH_BACSU ) и 9-165 (EXOS4_CAEBR) абсолютно идентичны; далее выравнивания вообще не совпадают. Разумеется, длина , процент идентичности и сходства различны.
Дополнительные задания
1.При изменении лимита E-value число находок изменяется прямопропорционально.При изменении штрафов за гэпы и матрицы изменяются значения Score .
2.в разработке
3.в разработке
© Алиса Муравьева. Все права защищены.
|