Пакет EMBOSS. Программы парного выравнивания

1. Подсчитываю вес выравнивания, полученного в упр.1 предыдущего занятия, используя матрицу BLOSUM62, штраф за открытие пробела 12 и штраф за удлинение пробела 2.

Изображение выравнивания alignment1.msf:

Получилось 17 колонок с одинаковыми буквами, колонок с буквами, отвечающими похожим остаткам нет (для V/Y, L/T в таблице BLOSUM62 нахожу -1), а общее число колонок выравнивания - 24. Т.е. процент идентичности и процент сходства двух последовательностей равны друг другу и рассчитываются как (17/24)×100=70.83%.

Seq1 - ER D G W K V C L G K V GS M DA H KV V A A
Seq2 I ER D - W K Y C T G K V GS M -- - KV V A A
Bес позиции выравнивания -12 55 5 -12 11 5 -1 9 -1 6 5 4 64 5 -12-2 -2 54 4 4 4

Вес выравнивания: 49.

2. Создаю программой stretcher оптимальное выравнивание тех же последовательностей.

Stretcher - одна из четырех программ в EMBOSS, выдающих парное выравнивание. Представляет оптимальное полное выравнивание. Общий синтаксис:

program usa1 usa2 outfile -auto

Использую команду:

stretcher shortseq1.fasta shortseq2.fasta shortseqs.stretcher

Получаю выравнивание shortseqs.stretcher.

               10        20   
  seq1 ERDGWKVCLGKVGSMDAHKVVAA
           :: : ::::::   :::::
  seq2 IERDWKYCTGKVGSM---KVVAA
               10           20

Выравнивание программы не совпадает с моим выравниванием (по крайней мере начало). Вес выданный программой равен 52, что на 3 больше веса, полученного мной (49). Дело в том, что программой допущено на два одиночных гэпа меньше, т.е. съэкономлено 24 балла. Это приводит к тому, что отстаются невыравненными три идущие подряд а.о., что на мой взгляд является слишком большой жертвой при выравнивании коротких последовательностей.

3. Создаю программами needle и water полное и частичное выравнивания последовательностей моего белка HUTP_BACSU (AC P10943) и родственного белка HUTP_GEOSW (AC C5D4K0) (при параметрах по умолчанию).

Needle и Water - две из четырех программ в EMBOSS, выдающих парное выравнивание. Needle - оптимальное полное выравнивание, water - оптимальное частичное выравнивание.

Использую команду:

needle sw:p10943 sw:c5d4k0 aligns.needle -auto

Получаю выравнивание aligns.needle.

 
  HUTP_BACSU         1 MTLHKERRIGRLSVLLLLNEAEESTQV-EELERDGWKVCLGKVGSMDAHK     49
                       |....:.||||.:|||.|.|.||..:: ..|:...|:.|.||||||:..|
  HUTP_GEOSW         1 MLKQAKGRIGRNAVLLALFEEEEEGKITAHLDNLQWRYCKGKVGSMELQK     50
  
  HUTP_BACSU        50 VVAAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLLGSLLRT     99
                       :||::|||:|::.|:..|.|||.||||||.:||:.|||||::.||.|:||
  HUTP_GEOSW        51 IVASVETAAKRNNVVNGELYREMHALYHAVVEAVQGVTRGQVELGDLMRT    100

  HUTP_BACSU       100 VGLRFAVLRGNPYESEAEGDWIAVSLYGTIGAPIKGLEHETFGVGINHI    148
                       |||||||:||||||:..||:||||:|||||||||:||||||.|:|||||
  HUTP_GEOSW       101 VGLRFAVVRGNPYENSKEGEWIAVALYGTIGAPIRGLEHETIGLGINHI    149 

Использую команду:

water sw:p10943 sw:c5d4k0 aligns.water -auto

Получаю выравнивание aligns.water.

 
  HUTP_BACSU         8 RIGRLSVLLLLNEAEESTQV-EELERDGWKVCLGKVGSMDAHKVVAAIET     56
                       ||||.:|||.|.|.||..:: ..|:...|:.|.||||||:..|:||::||
  HUTP_GEOSW         8 RIGRNAVLLALFEEEEEGKITAHLDNLQWRYCKGKVGSMELQKIVASVET     57

  HUTP_BACSU        57 ASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLLGSLLRTVGLRFAV    106
                       |:|::.|:..|.|||.||||||.:||:.|||||::.||.|:|||||||||
  HUTP_GEOSW        58 AAKRNNVVNGELYREMHALYHAVVEAVQGVTRGQVELGDLMRTVGLRFAV    107

  HUTP_BACSU       107 LRGNPYESEAEGDWIAVSLYGTIGAPIKGLEHETFGVGINHI    148
                       :||||||:..||:||||:|||||||||:||||||.|:|||||
  HUTP_GEOSW       108 VRGNPYENSKEGEWIAVALYGTIGAPIRGLEHETIGLGINHI    149

В частичное выравнивание вошли участки с 8 по 148 а.о. белка HUTP_BACSU и с 8 по 149 а.о. HUTP_GEOSW.

Локальное выравнивание совпадает с "ограничением" глобального на участок.

Вес локального и глобального выравниваний совпадает и равняется 474.0. Видимо, вес оптимального глобального выравнивания не может быть больше веса оптимального локального выравнивания (при тех же параметрах), т.к. в глобальном выравнивании будут содержаться дополнительные участки с несовпадающими а.о., за которые, возможно, будут налагаться штрафы. Эти штрафы будут перекрывать вес совпадающих и сходных а.о. или же приравняются к этому весу, что приведет к совпадению значений при глобальном и локальном выравниваниях.

Доп. 1. Cтрою карту локального сходства двух последовательностей моего белка HUTP_BACSU (AC P10943) и родственного белка HUTP_GEOSW (AC C5D4K0) с помощью программы dotmatcher пакета EMBOSS.

Программа dotmatcher пакета EMBOSS - программа с графическим выводом.

Использую команду:

dotmatcher sw:p10943 sw:c5d4k0

На вопрос "Graph type" отвечаю "ps", получившийся файл dotmatcher.ps в формате PostScript можно открыть программой GhostView или импортировать, например, в MS-Word.

Доп. 2. Получаю несколько субоптимальных локальных выравниваний двух последовательностей моего белка HUTP_BACSU (AC P10943) и родственного белка HUTP_GEOSW (AC C5D4K0) с помощью программы matcher пакета EMBOSS.

Программа matcher - одна из четырех программ пакета EMBOSS, выдающих парное выравнивание. Выдаёт несколько (по умолчанию три) частичных выравниваний с наибольшим весом.

Использую команду:

matcher sw:p10943 sw:c5d4k0 aligns.matcher -alternatives 4

Получаю файл aligns.matcher, содержащий 4 локальных выравнивания.

Первое - наиболее оптимальное, с наибольшими весом, длиной, идентичностью и схожестью (Length: 142, Identity: 90/142 (63.4%), Similarity: 114/142 (80.3%), Gaps: 1/142 ( 0.7%), Score: 470):

          10        20         30        40        50      
  HUTP_B RIGRLSVLLLLNEAEESTQVE-ELERDGWKVCLGKVGSMDAHKVVAAIET
         :::: .::: : : ::  ..   :.   :. : ::::::.  :.::..::
  HUTP_G RIGRNAVLLALFEEEEEGKITAHLDNLQWRYCKGKVGSMELQKIVASVET
          10        20        30        40        50       

           60        70        80        90       100      
  HUTP_B ASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLLGSLLRTVGLRFAV
         :.:.. :.  : ::: :::::: .::. :::::.. :: :.:::::::::
  HUTP_G AAKRNNVVNGELYREMHALYHAVVEAVQGVTRGQVELGDLMRTVGLRFAV
          60        70        80        90       100       

          110       120       130       140        
  HUTP_B LRGNPYESEAEGDWIAVSLYGTIGAPIKGLEHETFGVGINHI
         .::::::.  ::.::::.:::::::::.:::::: :.:::::
  HUTP_G VRGNPYENSKEGEWIAVALYGTIGAPIRGLEHETIGLGINHI
         110       120       130       140         

Второе (Length: 13, Identity: 5/13 (38.5%), Similarity: 8/13 (61.5%), Gaps: 0/13 ( 0.0%), Score: 24):

         90       100 
  HUTP_B GEMLLGSLLRTVG
         :: .  .:  :.:
  HUTP_G GEWIAVALYGTIG
        120       130 

Третье (Length: 12, Identity: 4/12 (33.3%), Similarity: 8/12 (66.7%), Gaps: 0/12 ( 0.0%), Score: 24):

          50         
  HUTP_B HKVVAAIETASK
         : :: :..  ..
  HUTP_G HAVVEAVQGVTR
          80         

Четвертое (Length: 7, Identity: 4/7 (57.1%, Similarity: 5/7 (71.4%), Gaps: 0/7 ( 0.0%), Score: 23):

             118
  HUTP_B YESEAEG
         .: : ::
  HUTP_G FEEEEEG
         20     

Как видно, выравнивания расположены главным образом в порядке убывания веса, потом уже по длине и идентичности.

Доп. 3. Нахожу вес оптимального выравнивания последовательностей из handout.

Действую по варианту 2.

Создаю файл aligns' weight.xlsx, используя команды ИНДЕКС и МАКС, нахожу, что вес оптимального выравнивания равен 14.


© Eugenia Prokhorova 2011