Пакет EMBOSS. Программы парного выравнивания
1. Подсчитываю вес выравнивания, полученного в упр.1 предыдущего занятия, используя матрицу BLOSUM62, штраф за открытие пробела 12 и штраф за удлинение пробела 2.
Изображение выравнивания alignment1.msf:
Получилось 17 колонок с одинаковыми буквами, колонок с буквами, отвечающими похожим остаткам нет (для V/Y, L/T в таблице BLOSUM62 нахожу -1), а общее число колонок выравнивания - 24. Т.е. процент идентичности и процент сходства двух последовательностей равны друг другу и рассчитываются как (17/24)×100=70.83%.
Seq1 | - | E | R | D | G | W | K | V | C | L | G | K | V | G | S | M | D | A | H | K | V | V | A | A |
Seq2 | I | E | R | D | - | W | K | Y | C | T | G | K | V | G | S | M | - | - | - | K | V | V | A | A |
Bес позиции выравнивания | -12 | 5 | 5 | 5 | -12 | 11 | 5 | -1 | 9 | -1 | 6 | 5 | 4 | 6 | 4 | 5 | -12 | -2 | -2 | 5 | 4 | 4 | 4 | 4 |
Вес выравнивания: 49.
2. Создаю программой stretcher оптимальное выравнивание тех же последовательностей.
Stretcher - одна из четырех программ в EMBOSS, выдающих парное выравнивание. Представляет оптимальное полное выравнивание. Общий синтаксис:
Использую команду:
Получаю выравнивание shortseqs.stretcher.
10 20 seq1 ERDGWKVCLGKVGSMDAHKVVAA :: : :::::: ::::: seq2 IERDWKYCTGKVGSM---KVVAA 10 20
Выравнивание программы не совпадает с моим выравниванием (по крайней мере начало). Вес выданный программой равен 52, что на 3 больше веса, полученного мной (49). Дело в том, что программой допущено на два одиночных гэпа меньше, т.е. съэкономлено 24 балла. Это приводит к тому, что отстаются невыравненными три идущие подряд а.о., что на мой взгляд является слишком большой жертвой при выравнивании коротких последовательностей.
3. Создаю программами needle и water полное и частичное выравнивания последовательностей моего белка HUTP_BACSU (AC P10943) и родственного белка HUTP_GEOSW (AC C5D4K0) (при параметрах по умолчанию).
Needle и Water - две из четырех программ в EMBOSS, выдающих парное выравнивание. Needle - оптимальное полное выравнивание, water - оптимальное частичное выравнивание.
Использую команду:
Получаю выравнивание aligns.needle.
HUTP_BACSU 1 MTLHKERRIGRLSVLLLLNEAEESTQV-EELERDGWKVCLGKVGSMDAHK 49 |....:.||||.:|||.|.|.||..:: ..|:...|:.|.||||||:..| HUTP_GEOSW 1 MLKQAKGRIGRNAVLLALFEEEEEGKITAHLDNLQWRYCKGKVGSMELQK 50 HUTP_BACSU 50 VVAAIETASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLLGSLLRT 99 :||::|||:|::.|:..|.|||.||||||.:||:.|||||::.||.|:|| HUTP_GEOSW 51 IVASVETAAKRNNVVNGELYREMHALYHAVVEAVQGVTRGQVELGDLMRT 100 HUTP_BACSU 100 VGLRFAVLRGNPYESEAEGDWIAVSLYGTIGAPIKGLEHETFGVGINHI 148 |||||||:||||||:..||:||||:|||||||||:||||||.|:||||| HUTP_GEOSW 101 VGLRFAVVRGNPYENSKEGEWIAVALYGTIGAPIRGLEHETIGLGINHI 149
Использую команду:
Получаю выравнивание aligns.water.
HUTP_BACSU 8 RIGRLSVLLLLNEAEESTQV-EELERDGWKVCLGKVGSMDAHKVVAAIET 56 ||||.:|||.|.|.||..:: ..|:...|:.|.||||||:..|:||::|| HUTP_GEOSW 8 RIGRNAVLLALFEEEEEGKITAHLDNLQWRYCKGKVGSMELQKIVASVET 57 HUTP_BACSU 57 ASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLLGSLLRTVGLRFAV 106 |:|::.|:..|.|||.||||||.:||:.|||||::.||.|:||||||||| HUTP_GEOSW 58 AAKRNNVVNGELYREMHALYHAVVEAVQGVTRGQVELGDLMRTVGLRFAV 107 HUTP_BACSU 107 LRGNPYESEAEGDWIAVSLYGTIGAPIKGLEHETFGVGINHI 148 :||||||:..||:||||:|||||||||:||||||.|:||||| HUTP_GEOSW 108 VRGNPYENSKEGEWIAVALYGTIGAPIRGLEHETIGLGINHI 149
В частичное выравнивание вошли участки с 8 по 148 а.о. белка HUTP_BACSU и с 8 по 149 а.о. HUTP_GEOSW.
Локальное выравнивание совпадает с "ограничением" глобального на участок.
Вес локального и глобального выравниваний совпадает и равняется 474.0. Видимо, вес оптимального глобального выравнивания не может быть больше веса оптимального локального выравнивания (при тех же параметрах), т.к. в глобальном выравнивании будут содержаться дополнительные участки с несовпадающими а.о., за которые, возможно, будут налагаться штрафы. Эти штрафы будут перекрывать вес совпадающих и сходных а.о. или же приравняются к этому весу, что приведет к совпадению значений при глобальном и локальном выравниваниях.
Доп. 1. Cтрою карту локального сходства двух последовательностей моего белка HUTP_BACSU (AC P10943) и родственного белка HUTP_GEOSW (AC C5D4K0) с помощью программы dotmatcher пакета EMBOSS.
Программа dotmatcher пакета EMBOSS - программа с графическим выводом.
Использую команду:
На вопрос "Graph type" отвечаю "ps", получившийся файл dotmatcher.ps в формате PostScript можно открыть программой GhostView или импортировать, например, в MS-Word.
Доп. 2. Получаю несколько субоптимальных локальных выравниваний двух последовательностей моего белка HUTP_BACSU (AC P10943) и родственного белка HUTP_GEOSW (AC C5D4K0) с помощью программы matcher пакета EMBOSS.
Программа matcher - одна из четырех программ пакета EMBOSS, выдающих парное выравнивание. Выдаёт несколько (по умолчанию три) частичных выравниваний с наибольшим весом.
Использую команду:
Получаю файл aligns.matcher, содержащий 4 локальных выравнивания.
Первое - наиболее оптимальное, с наибольшими весом, длиной, идентичностью и схожестью (Length: 142, Identity: 90/142 (63.4%), Similarity: 114/142 (80.3%), Gaps: 1/142 ( 0.7%), Score: 470):
10 20 30 40 50 HUTP_B RIGRLSVLLLLNEAEESTQVE-ELERDGWKVCLGKVGSMDAHKVVAAIET :::: .::: : : :: .. :. :. : ::::::. :.::..:: HUTP_G RIGRNAVLLALFEEEEEGKITAHLDNLQWRYCKGKVGSMELQKIVASVET 10 20 30 40 50 60 70 80 90 100 HUTP_B ASKKSGVIQSEGYRESHALYHATMEALHGVTRGEMLLGSLLRTVGLRFAV :.:.. :. : ::: :::::: .::. :::::.. :: :.::::::::: HUTP_G AAKRNNVVNGELYREMHALYHAVVEAVQGVTRGQVELGDLMRTVGLRFAV 60 70 80 90 100 110 120 130 140 HUTP_B LRGNPYESEAEGDWIAVSLYGTIGAPIKGLEHETFGVGINHI .::::::. ::.::::.:::::::::.:::::: :.::::: HUTP_G VRGNPYENSKEGEWIAVALYGTIGAPIRGLEHETIGLGINHI 110 120 130 140
Второе (Length: 13, Identity: 5/13 (38.5%), Similarity: 8/13 (61.5%), Gaps: 0/13 ( 0.0%), Score: 24):
90 100 HUTP_B GEMLLGSLLRTVG :: . .: :.: HUTP_G GEWIAVALYGTIG 120 130
Третье (Length: 12, Identity: 4/12 (33.3%), Similarity: 8/12 (66.7%), Gaps: 0/12 ( 0.0%), Score: 24):
50 HUTP_B HKVVAAIETASK : :: :.. .. HUTP_G HAVVEAVQGVTR 80
Четвертое (Length: 7, Identity: 4/7 (57.1%, Similarity: 5/7 (71.4%), Gaps: 0/7 ( 0.0%), Score: 23):
118 HUTP_B YESEAEG .: : :: HUTP_G FEEEEEG 20
Как видно, выравнивания расположены главным образом в порядке убывания веса, потом уже по длине и идентичности.
Доп. 3. Нахожу вес оптимального выравнивания последовательностей из handout.
Действую по варианту 2.
Создаю файл aligns' weight.xlsx, используя команды ИНДЕКС и МАКС, нахожу, что вес оптимального выравнивания равен 14.
© Eugenia Prokhorova 2011