Пакет EMBOSS. Программы парного выравнивания
1. Подсчитываю вес выравнивания, полученного в упр.1 предыдущего занятия, используя матрицу BLOSUM62, штраф за открытие пробела 12 и штраф за удлинение пробела 2.
Изображение выравнивания alignment1.msf:
Получилось 17 колонок с одинаковыми буквами, колонок с буквами, отвечающими похожим остаткам нет (для V/Y, L/T в таблице BLOSUM62 нахожу -1), а общее число колонок выравнивания - 24. Т.е. процент идентичности и процент сходства двух последовательностей равны друг другу и рассчитываются как (17/24)×100=70.83%.
| Seq1 | - | E | R | D | G | W | K | V | C | L | G | K | V | G | S | M | D | A | H | K | V | V | A | A |
| Seq2 | I | E | R | D | - | W | K | Y | C | T | G | K | V | G | S | M | - | - | - | K | V | V | A | A |
| Bес позиции выравнивания | -12 | 5 | 5 | 5 | -12 | 11 | 5 | -1 | 9 | -1 | 6 | 5 | 4 | 6 | 4 | 5 | -12 | -2 | -2 | 5 | 4 | 4 | 4 | 4 |
Вес выравнивания: 49.
2. Создаю программой stretcher оптимальное выравнивание тех же последовательностей.
Stretcher - одна из четырех программ в EMBOSS, выдающих парное выравнивание. Представляет оптимальное полное выравнивание. Общий синтаксис:
Использую команду:
Получаю выравнивание shortseqs.stretcher.
10 20
seq1 ERDGWKVCLGKVGSMDAHKVVAA
:: : :::::: :::::
seq2 IERDWKYCTGKVGSM---KVVAA
10 20
Выравнивание программы не совпадает с моим выравниванием (по крайней мере начало). Вес выданный программой равен 52, что на 3 больше веса, полученного мной (49). Дело в том, что программой допущено на два одиночных гэпа меньше, т.е. съэкономлено 24 балла. Это приводит к тому, что отстаются невыравненными три идущие подряд а.о., что на мой взгляд является слишком большой жертвой при выравнивании коротких последовательностей.
3. Создаю программами needle и water полное и частичное выравнивания последовательностей моего белка HUTP_BACSU (AC P10943) и родственного белка HUTP_GEOSW (AC C5D4K0) (при параметрах по умолчанию).
Needle и Water - две из четырех программ в EMBOSS, выдающих парное выравнивание. Needle - оптимальное полное выравнивание, water - оптимальное частичное выравнивание.
Использую команду:
Получаю выравнивание aligns.needle.
HUTP_BACSU 1 MTLHKERRIGRLSVLLLLNEAEESTQV-EELERDGWKVCLGKVGSMDAHK 49
|....:.||||.:|||.|.|.||..:: ..|:...|:.|.||||||:..|
HUTP_GEOSW 1 MLKQAKGRIGRNAVLLALFEEEEEGKITAHLDNLQWRYCKGKVGSMELQK 50
HUTP_BACSU 50 VVAAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLLGSLLRT 99
:||::|||:|::.|:..|.|||.||||||.:||:.|||||::.||.|:||
HUTP_GEOSW 51 IVASVETAAKRNNVVNGELYREMHALYHAVVEAVQGVTRGQVELGDLMRT 100
HUTP_BACSU 100 VGLRFAVLRGNPYESEAEGDWIAVSLYGTIGAPIKGLEHETFGVGINHI 148
|||||||:||||||:..||:||||:|||||||||:||||||.|:|||||
HUTP_GEOSW 101 VGLRFAVVRGNPYENSKEGEWIAVALYGTIGAPIRGLEHETIGLGINHI 149
Использую команду:
Получаю выравнивание aligns.water.
HUTP_BACSU 8 RIGRLSVLLLLNEAEESTQV-EELERDGWKVCLGKVGSMDAHKVVAAIET 56
||||.:|||.|.|.||..:: ..|:...|:.|.||||||:..|:||::||
HUTP_GEOSW 8 RIGRNAVLLALFEEEEEGKITAHLDNLQWRYCKGKVGSMELQKIVASVET 57
HUTP_BACSU 57 ASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLLGSLLRTVGLRFAV 106
|:|::.|:..|.|||.||||||.:||:.|||||::.||.|:|||||||||
HUTP_GEOSW 58 AAKRNNVVNGELYREMHALYHAVVEAVQGVTRGQVELGDLMRTVGLRFAV 107
HUTP_BACSU 107 LRGNPYESEAEGDWIAVSLYGTIGAPIKGLEHETFGVGINHI 148
:||||||:..||:||||:|||||||||:||||||.|:|||||
HUTP_GEOSW 108 VRGNPYENSKEGEWIAVALYGTIGAPIRGLEHETIGLGINHI 149
В частичное выравнивание вошли участки с 8 по 148 а.о. белка HUTP_BACSU и с 8 по 149 а.о. HUTP_GEOSW.
Локальное выравнивание совпадает с "ограничением" глобального на участок.
Вес локального и глобального выравниваний совпадает и равняется 474.0. Видимо, вес оптимального глобального выравнивания не может быть больше веса оптимального локального выравнивания (при тех же параметрах), т.к. в глобальном выравнивании будут содержаться дополнительные участки с несовпадающими а.о., за которые, возможно, будут налагаться штрафы. Эти штрафы будут перекрывать вес совпадающих и сходных а.о. или же приравняются к этому весу, что приведет к совпадению значений при глобальном и локальном выравниваниях.
Доп. 1. Cтрою карту локального сходства двух последовательностей моего белка HUTP_BACSU (AC P10943) и родственного белка HUTP_GEOSW (AC C5D4K0) с помощью программы dotmatcher пакета EMBOSS.
Программа dotmatcher пакета EMBOSS - программа с графическим выводом.
Использую команду:
На вопрос "Graph type" отвечаю "ps", получившийся файл dotmatcher.ps в формате PostScript можно открыть программой GhostView или импортировать, например, в MS-Word.
Доп. 2. Получаю несколько субоптимальных локальных выравниваний двух последовательностей моего белка HUTP_BACSU (AC P10943) и родственного белка HUTP_GEOSW (AC C5D4K0) с помощью программы matcher пакета EMBOSS.
Программа matcher - одна из четырех программ пакета EMBOSS, выдающих парное выравнивание. Выдаёт несколько (по умолчанию три) частичных выравниваний с наибольшим весом.
Использую команду:
Получаю файл aligns.matcher, содержащий 4 локальных выравнивания.
Первое - наиболее оптимальное, с наибольшими весом, длиной, идентичностью и схожестью (Length: 142, Identity: 90/142 (63.4%), Similarity: 114/142 (80.3%), Gaps: 1/142 ( 0.7%), Score: 470):
10 20 30 40 50
HUTP_B RIGRLSVLLLLNEAEESTQVE-ELERDGWKVCLGKVGSMDAHKVVAAIET
:::: .::: : : :: .. :. :. : ::::::. :.::..::
HUTP_G RIGRNAVLLALFEEEEEGKITAHLDNLQWRYCKGKVGSMELQKIVASVET
10 20 30 40 50
60 70 80 90 100
HUTP_B ASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLLGSLLRTVGLRFAV
:.:.. :. : ::: :::::: .::. :::::.. :: :.:::::::::
HUTP_G AAKRNNVVNGELYREMHALYHAVVEAVQGVTRGQVELGDLMRTVGLRFAV
60 70 80 90 100
110 120 130 140
HUTP_B LRGNPYESEAEGDWIAVSLYGTIGAPIKGLEHETFGVGINHI
.::::::. ::.::::.:::::::::.:::::: :.:::::
HUTP_G VRGNPYENSKEGEWIAVALYGTIGAPIRGLEHETIGLGINHI
110 120 130 140 Второе (Length: 13, Identity: 5/13 (38.5%), Similarity: 8/13 (61.5%), Gaps: 0/13 ( 0.0%), Score: 24):
90 100
HUTP_B GEMLLGSLLRTVG
:: . .: :.:
HUTP_G GEWIAVALYGTIG
120 130 Третье (Length: 12, Identity: 4/12 (33.3%), Similarity: 8/12 (66.7%), Gaps: 0/12 ( 0.0%), Score: 24):
50
HUTP_B HKVVAAIETASK
: :: :.. ..
HUTP_G HAVVEAVQGVTR
80
Четвертое (Length: 7, Identity: 4/7 (57.1%, Similarity: 5/7 (71.4%), Gaps: 0/7 ( 0.0%), Score: 23):
118
HUTP_B YESEAEG
.: : ::
HUTP_G FEEEEEG
20
Как видно, выравнивания расположены главным образом в порядке убывания веса, потом уже по длине и идентичности.
Доп. 3. Нахожу вес оптимального выравнивания последовательностей из handout.
Действую по варианту 2.
Создаю файл aligns' weight.xlsx, используя команды ИНДЕКС и МАКС, нахожу, что вес оптимального выравнивания равен 14.
© Eugenia Prokhorova 2011