Пакет EMBOSS. Программы парного выравнивания


Задание 1.Поиск гипотетических гомологов изучаемого белка в разных банках

Таблица 1. Результаты поиска гипотетических гомологов белка RNPH_BACSU

  Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка (в принципе должна соответствовать заданному белку)
Accession P28619.1
( 1OYP цепи A,B,C,D,E,F
1OYR цепи A,B,C,D,E,F )
1OYP цепи A,B,C,D,E,F
1OYR цепи A,B,C,D,E,F
NP_390715.1
( 1OYP цепи A,B,C,D,E,F
1OYR цепи
A,B,C,D,E,F )
E-value 1e-139 7e-141 2e-138
Вес (в битах) 495 bits 495 bits 495 bits
Процент идентичности 100% 100% 100%
2. Сколько хороших кандидатов в гомологи найдено?
(число находок в списке описаний с E-value < 1E-10)
337 17 1313
3. "Худшая из хороших" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний 955 37 998(все последующие находки не открываются, поэтому я взяла эту)
Accession Q7V606.1 2NN6_F YP_001762913.1
E-value 0.76 0.24 1e-63
Вес (в битах) 34.3 bits 32.0 bits 246 bits
% идентичности 24% 38% 57%
% сходства 44% 51% 70%
Длина выравнивания 204 37 230
Координаты выравнивания (от-до, в запросе и в находке) 2-196 ( в запросе)
325-512 ( в находке)
6-42 ( в запросе)
31-67 ( в находке)
2-230 ( в запросе)
6-233 ( в находке)
Число гэпов 25 0 3

Краткий комментарий к таблице :
  • Мне удалось найти исходный белок в Swiss-Prot и "nr"и его структуру в PDB
  • Число явных гомологов (E-value < 1e-10) при поиске по разным БД различно , т.к. в разных БД находится различное число последовательностей , а их число учитывается при расчете E-value .
  • Swiss-Prot
    Всего находок:985
    E-value самой последней находки:9.8
    Изначально число находок было лимитировано и значением E-value , и заданным по умолчанию предельным размером выдачи , но я заранее изменила предельный размер выдачи на максимальный( 20000), и он перестал быть лимитирующим фактором.

    PDB
    Всего находок:48
    E-value самой последней находки:8.3
    В данном случае число находок было лимитировано значением E-value ( по умолчанию предельно допустимое значение E-value было 10)

    "nr"
    Всего находок: 3671
    E-value самой последней находки: 9.8
    Изначально число находок было лимитировано и значением E-value , и заданным по умолчанию предельным размером выдачи , но я заранее изменила предельный размер выдачи на максимальный( 20000), и он перестал быть лимитирующим фактором.

Задание 2.Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

Таблица 2. Результат поиска гипотетических гомологов белка RNPH_BACSU в царстве Eukaryota

  Поиск по "nr" Поиск по Swiss-Prot Поиск по PDB
Accession CBI60875.1 A8WQQ5.1 (EXOS4_CAEBR) 2NN6_B
E-value 2e-44 2e-10 1e-07
Вес (в битах) 182 bits 64.7 bits 52.0 bits
% идентичности 68% 30% 28%
% сходства 83% 43% 45%
Длина выравнивания 130 174 209
Координаты выравнивания (от-до, в запросе и в находке) 6-134( в запросе)
19-148 ( в находке)
1-158( в запросе)
9-168 ( в находке)
2-202( в запросе)
17-204 ( в находке)
Число гэпов 1 30 29

Задание 3. Сравнение выравниваний, выданных программой BLASTP,
с оптимальными глобальным и локальным выравниваниями

Blast alignment

 Aligned_sequences: 2
 1: RNPH_BACSU
 2: EXOS4_CAEBR
 Matrix: BLOSUM62
 Gap_penalty: 11.0
 Extend_penalty: 1.0

 Length=240
     
  Score = 64.7 bits (156)
  Expect = 2e-10
  Method: Compositional matrix adjust.
  Identities = 52/174 (30%)
  Positives = 74/174 (43%)
  Gaps = 30/174 (17%)

Query  1    MRHDGRQHDELRPITFDLDFISHPEGSVLITAGNTKVIC----------NASVEDRVPPF  50
             R DGR+  ++R I   L    + EGS  +  GNTKV+C          +  +EDR    
Sbjct  9    FRMDGRRPAQIRNINTRLGLNRNAEGSCYLEHGNTKVLCAVYGPYESKASKRLEDRCAIV  68

Query  51   LRGGGKGWITAEYSMLPRATNQRTIRESSKGKISGRTMEIQRLIGRALRAVVDLEKLGER  110
             +     + T  +S L R    R  R+S+         EI RL+ +A  +V+  E     
Sbjct  69   CQ-----YSTTTFSGLERKNRPRGDRKST---------EISRLLEKAFESVILTESFPRS  114

Query  111  TIWIDCDVIQADGGTRTASITGAFLAMAIA------IGKLIKAGTIKTNPITDF  158
             I I C+VIQ DG    A +    LA+A A      I      G ++T PI D 
Sbjct  115  QIDIFCEVIQGDGSNLAACVNATSLALADAGIPMKGIASAATCGIVETKPIVDL  168

Оптимальное частичное выравнивание(water)

  Aligned_sequences: 2
  1: RNPH_BACSU
  2: EXOS4_CAEBR
  Matrix: EBLOSUM62
  Gap_penalty: 11.0
  Extend_penalty: 1.0
 
  Length: 172
  Identity:      52/172 (30.2%)
  Similarity:    74/172 (43.0%)
  Gaps:          30/172 (17.4%)
  Score: 151.0
  
 
 

RNPH_BACSU         2 RHDGRQHDELRPITFDLDFISHPEGSVLITAGNTKVIC----------NA     41
                     |.|||:..::|.|...|....:.|||..:..|||||:|          :.
EXOS4_CAEBR       10 RMDGRRPAQIRNINTRLGLNRNAEGSCYLEHGNTKVLCAVYGPYESKASK     59

RNPH_BACSU        42 SVEDRVPPFLRGGGKGWITAEYSMLPRATNQRTIRESSKGKISGRTMEIQ     91
                     .:|||.....:     :.|..:|.|.|....|..|:|:         ||.
EXOS4_CAEBR       60 RLEDRCAIVCQ-----YSTTTFSGLERKNRPRGDRKST---------EIS     95

RNPH_BACSU        92 RLIGRALRAVVDLEKLGERTIWIDCDVIQADGGTRTASITGAFLAMAIA-    140
                     ||:.:|..:|:..|......|.|.|:|||.||....|.:....||:|.| 
EXOS4_CAEBR       96 RLLEKAFESVILTESFPRSQIDIFCEVIQGDGSNLAACVNATSLALADAG    145

RNPH_BACSU       141 -----IGKLIKAGTIKTNPITD    157
                          |......|.::|.||.|
EXOS4_CAEBR      146 IPMKGIASAATCGIVETKPIVD    167


Сравнение оптимального частичного выравнивания(water) и выравнивания , сделанного программой Blast:
Значения Score различны,т.к. BLAST накладывает штраф "за удлиннение пробела" и на первый гэп тоже.Сами выравнивания одинаковы за исключением того,что в Blast взято на один элемент больше и вначале , и в конце ( т.е. если в оптимальном частичном выравнивании координаты :2-157 у белка RNPH_BACSU и 10-167 у белка EXOS4_CAEBR , то в Blast : 1-158 у белка RNPH_BACSU и 9-168 у белка EXOS4_CAEBR)В итоге, длина у них различается на 2 элемента , и различны проценты идентичности и сходства

Оптимальное полное выравнивание(needle)

  Aligned_sequences: 2
  1: RNPH_BACSU
  2: EXOS4_CAEBR
  Matrix: EBLOSUM62
  Gap_penalty: 11.0
  Extend_penalty: 1.0
 
  Length: 280
  Identity:      66/280 (23.6%)
  Similarity:   109/280 (38.9%)
  Gaps:          75/280 (26.8%)
  Score: 129.0
  

RNPH_BACSU         1 --------MRHDGRQHDELRPITFDLDFISHPEGSVLITAGNTKVIC---     39
                             .|.|||:..::|.|...|....:.|||..:..|||||:|   
EXOS4_CAEBR        1 MSIISEHGFRMDGRRPAQIRNINTRLGLNRNAEGSCYLEHGNTKVLCAVY     50

RNPH_BACSU        40 -------NASVEDRVPPFLRGGGKGWITAEYSMLPRATNQRTIRESSKGK     82
                            :..:|||.....:     :.|..:|.|.|....|..|:|:   
EXOS4_CAEBR       51 GPYESKASKRLEDRCAIVCQ-----YSTTTFSGLERKNRPRGDRKST---     92

RNPH_BACSU        83 ISGRTMEIQRLIGRALRAVVDLEKLGERTIWIDCDVIQADGGTRTASITG    132
                           ||.||:.:|..:|:..|......|.|.|:|||.||....|.:..
EXOS4_CAEBR       93 ------EISRLLEKAFESVILTESFPRSQIDIFCEVIQGDGSNLAACVNA    136

RNPH_BACSU       133 AFLAMAIA------IGKLIKAGTIKTNPI--------TDFLAAISVG--I    166
                     ..||:|.|      |......|.::|.||        ||.|..:::.  .
EXOS4_CAEBR      137 TSLALADAGIPMKGIASAATCGIVETKPIVDLTSREETDLLPRVTLATIC    186

RNPH_BACSU       167 DKEQGILLDLNYEEDSSAEVD-MNVIMTGSGRFVELQGTGEEATFSREDL    215
                     .:::.||::|    .:...:| ::|:|             :.|..:..|:
EXOS4_CAEBR      187 GRDEVILVEL----QNRLHIDHLSVVM-------------DAAKATCADV    219

RNPH_BACSU       216 NGLLGLAEKGIQELIDKQKEVLGDSLPELK    245
                     ...|.:.   .|:.:.....:||:      
EXOS4_CAEBR      220 YECLAVV---AQQHLKACAPILGN------    240


   
Сравнение оптимального полного выравнивания(needle) и выравнивания , сделанного программой Blast: < BR> Значения Score различны,т.к сильно отличаются сами выравнивания, различно число гэпов и т.д.
Сами выравнивания:
в полном выравнивании имеется участок с координатами 1-8 ( EXOS4_CAEBR ), а в выравнивании Blast его нет;
участки с координатами 1-155 (RNPH_BACSU ) и 9-165 (EXOS4_CAEBR) абсолютно идентичны;
далее выравнивания вообще не совпадают.
Разумеется, длина , процент идентичности и сходства различны.

Дополнительные задания

1.При изменении лимита E-value число находок изменяется прямопропорционально.При изменении штрафов за гэпы и матрицы изменяются значения Score .
2.в разработке
3.в разработке


   

© Алиса Муравьева. Все права защищены.