| Московский Государственный Университет имени М.В.Ломоносова Факультет Биоинженерии и Биоинформатики Учебный сайт Сеферяна Мелика |
|---|
|
Полезные ссылки |
Работа в командной строке Linux. Программы выравнивания последовательностей пакета EMBOSS.Обязательные задания.I. Работа в командной строке Linux.
II. Построение и сравнение оптимального глобального и оптимального локального выравнивания 2-х последовательностей.1. Построение полного (глобального) оптимального выравнивания с помощью программы needle пакета EMBOSS.Белок RISA_MYCTU имеет с уже встречавшимся нам RISA_ECOLI одинаковую функцию и почти такую же длину аминокислотной последовательности, вероятно они являются гомологами. Построим для них оптимальное глобальное выравнивание. Файл ndl_auto.needle, создаваемый программой needle содержит:
########################################
1. Название использованной программы (needle).
2. Дата использования программы.
3. Параметры вызова программы (названия файлов с последовательностями, выходного файла, использованные штрафы за гэп и его удлинение.)
4. Формат выравнивания. (srspair)
5. Название отчетного файла
########################################
#==================================
1. Количество сравниваемых последовательностей, их названия.
2. Параметры выравнивания: использованная матрица (BLOSSUM62), штрафы за создание гэпа и его удлинение. (по умолчанию 10 и 0,5 соответственно)
3. Длина выравнивания, процент идентичности, процент сходства, процент гэпов, вес выравнивания.
#==================================
Далее идет само выравнивание, причем "|" означает совпадение, ":" - близкородственную замену, "." - замену с отрицательным весом.
Задание штрафов за гэпы, отличных от заданных по умолчанию. опустив опцию -auto можно задавать штрафы за гэпы вручную. В файле ndl_more.needle использованы штрафы за создание гэпа и его удлинение 20 и 1 соответственно. Очевидно в таком выравнивании должно быть меньше гэпов, так как они штрафуются строже, чем в первом выравнивании (действительно, 20 против 28). Кроме того процент идентичности должен быть меньше, так как создание гэпов - это по сути инструмент его увеличения (действительно, 35.0 против 35.3). 2. Построение локального (частичного) оптимального выравнивания тех же последовательностей. с помощью программы water пакета EMBOSS
Получение выдачи в формате, пригодном для импорта в GeneDoc.
3. Сравнение полученных выравниваний
Да, есть. 56-ая позиция последовательности RISA_ECOLI (G) в выравнивании со штрафами по умолчанию соответствует 57-ой позиции последовательности RISA_MYCTU (G). При увеличении штрафов, (см. ndl_more.needle) гэп стоящий между 54-ой и 55-ой позицией последовательности RISA_ECOLI уменьшается, и во втором выравнивании той же 56-ой позиции RISA_ECOLI (G) будет соответствовать 56-ая позиция RISA_MYCTU (D)
Со штрафами за гэпы по умолчанию:
v
RISA_ECOLI 51 VTEI--NGNHVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHL 98
|.:: :|...: |:|.|||..:|||:|:.|..||:||||.....:|||:
RISA_MYCTU 50 VVDVLPDGQFTA-DVMAETLNRSNLGELRPGSRVNLERAAALGSRLGGHI 98
С удвоенными штрафами за гэпы:
v
RISA_ECOLI 51 VTEI-NGNHVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHLM 99
|.:: .....:.|:|.|||..:|||:|:.|..||:||||.....:|||::
RISA_MYCTU 50 VVDVLPDGQFTADVMAETLNRSNLGELRPGSRVNLERAAALGSRLGGHIV 99
Да, есть. 60-ая позиция последовательности RISA_ECOLI (S) в выравнивании со штрафами по умолчанию соответствует 61-ой позиции последовательности RISA_MYCTU (A). При увеличении штрафов, (см. wtr_more.water) во втором выравнивании ей будет соответствовать 60-ая позиция RISA_MYCTU (T)
Со штрафами за гэпы по умолчанию:
v
RISA_ECOLI 51 VTEI--NGNHVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHL 98
|.:: :|...: |:|.|||..:|||:|:.|..||:||||.....:|||:
RISA_MYCTU 50 VVDVLPDGQFTA-DVMAETLNRSNLGELRPGSRVNLERAAALGSRLGGHI 98
С удвоенными штрафами за гэпы:
v
RISA_ECOLI 39 GASVAHNGCCLTVTEI-NGNHVSFDLMKETLRITNLGDLKVGDWVNVERA 87
|.|:|.||.||||.:: .....:.|:|.|||..:|||:|:.|..||:|||
RISA_MYCTU 38 GDSIAVNGVCLTVVDVLPDGQFTADVMAETLNRSNLGELRPGSRVNLERA 87
Да, есть.129-ая позиция последовательности RISA_ECOLI (Q) в выравнивании со штрафами по умолчанию соответствует 128-ой позиции последовательности RISA_MYCTU (S). При увеличении штрафов, (см. ndl_more.needle) во втором выравнивании ей будет соответствовать гэп, стоящий между 128-ой и 129-ой позициями RISA_MYCTU. Этот пример замечателен тем, что второе выравнивание - с большими штрафами за гэпы чем первое, то есть вероятность появления в нем дополнительного гэпа очень мала.
Со штрафами за гэпы по умолчанию:
v
RISA_ECOLI 99 MSGHIMTTAEVAKILTSENNRQIWFKVQ---DSQLMKYILYKGFIGIDGI 145
:.||:..|.|:.....||: |..|: .:.:.:|::.||.|.:|||
RISA_MYCTU 99 VQGHVDATGEIVARCPSEH----WEVVRIEMPASVARYVVEKGSITVDGI 144
С удвоенными штрафами за гэпы:
v
RISA_ECOLI 100 SGHIMTTAEVAKILTSENNRQIWFKVQDSQLMKYILYKGFIGIDGISLTV 149
.||:..|.|:.....||:...:..::..| :.:|::.||.|.:|||||||
RISA_MYCTU 100 QGHVDATGEIVARCPSEHWEVVRIEMPAS-VARYVVEKGSITVDGISLTV 148
Да, есть. 152-ая позиция последовательности RISA_ECOLI (V) в выравнивании со штрафами по умолчанию соответствует 154-ой позиции последовательности RISA_MYCTU (E). При уменьшении штрафов, (см. wtr_less.water) во втором выравнивании ей будет соответствовать гэп, стоящий между 154-ой и 155-ой позициями RISA_MYCTU.
Со штрафами за гэпы по умолчанию:
v
RISA_ECOLI 146 SLTV---GEVTPTRFCVHLIPETLERTTLGKKKLGARVNIEIDPQTQAVV 192
|||| |......|.|.|||.|.|.||||...:|.|||:|:| .|.
RISA_MYCTU 145 SLTVSGLGAEQRDWFEVSLIPTTRELTTLGSAAVGTRVNLEVD----VVA 190
С уменьшенными вдвое штрафами:
v
RISA_ECOLI 129 QLMKYILYKGFIGIDGISLTV---G-EVTPTR--FCVHLIPETLERTTLG 172
.:.:|::.||.|.:||||||| | | .| |.|.|||.|.|.||||
RISA_MYCTU 128 SVARYVVEKGSITVDGISLTVSGLGAE---QRDWFEVSLIPTTRELTTLG 174
Нет, не соответствуют. например выравнивание с уменьшенными штрафами построено для фрагментов: RISA_ECOLI - с 1 по 210 а.о., RISA_MYCTU - с 1 по 201 а.о. (см. wtr_less.water) А выравнивание с увеличенными штрафами: RISA_ECOLI - с 39 по185 а.о., RISA_MYCTU - с 38 по 187 а.о.(см. wtr_more.water) В моем случае это так, потому что данные белки имеют сходную структуру (включают в себя 2 повтора). Однако в общем случае это не всегда так. Например возьмем 2 белка: первый имеет вид: "домен №1 - домен №2", второй - те же домены, но в обратном порядке: "домен №2 - домен №1". Оптимальное локальное выравнивание покажет нам, например, родство первого домена первого белка и второго домена второго белка. А глобальное выравнивание - нечто бессмысленное с биологической точки зрения. Очевидно, такое локальное выравнивание не будет совпадать с соответствующей частью глобального. Дополнительные задания.I. Построение карты локального сходства.
II. Получение нескольких субоптимальных локальных выравниваний заданных последовательностей с помощью программы matcher пакета EMBOSS.файл risa_ecoli_risa_myctu.matcher содержит 10 субоптимальных выравниваний. Наиболее интересные из них, на мой взгляд:
#=======================================
#
# Aligned_sequences: 2
# 1: RISA_ECOLI
# 2: RISA_MYCTU
# Matrix: EBLOSUM62
# Gap_penalty: 14
# Extend_penalty: 4
#
# Length: 45
# Identity: 19/45 (42.2%)
# Similarity: 31/45 (68.9%)
# Gaps: 1/45 ( 2.2%)
# Score: 86
#
#
#=======================================
140 150 160 170 180
RISA_E IGIDGISLTVGEVTPT-RFCVHLIPETLERTTLGKKKLGARVNIE
: ..:. ::: .: : .: .. ::: :. ::. . :.:::.:
RISA_M IAVNGVCLTVVDVLPDGQFTADVMAETLNRSNLGELRPGSRVNLE
50 60 70 80
#=======================================
#
# Aligned_sequences: 2
# 1: RISA_ECOLI
# 2: RISA_MYCTU
# Matrix: EBLOSUM62
# Gap_penalty: 14
# Extend_penalty: 4
#
# Length: 85
# Identity: 21/85 (24.7%)
# Similarity: 38/85 (44.7%)
# Gaps: 3/85 ( 3.5%)
# Score: 55
#
#
#=======================================
10 20 30 40 50
RISA_E GIVQGTAKLVSIDEKPNFRTHVVELPDHMLDGLETGASVAHNGCCLTVTE
: : : ..:. .. .:.: . . :. .: :::.
RISA_M GHVDATGEIVARCPSEHWEVVRIEMPASVARYVVEKGSITVDGISLTVSG
110 120 130 140 150
60 70 80
RISA_E INGNHVSF---DLMKETLRITNLGDLKVGDWVNVE
. . :. : .: :: :: ::.:
RISA_M LGAEQRDWFEVSLIPTTRELTTLGSAAVGTRVNLE
160 170 180
По данным записи UniProt в белке RISA_ECOLI с 1 по 97 и с 98 по 195 позицию
расположены лумазин-связывающие домены. В белке RISA_MYCTU они расположены
на позициях с 1 по 97 и с 98 по 197. Можно заметить, что первое выравнивание
относится ко второму домену RISA_ECOLI и первому домену RISA_MYCTU . А второе
- наоборот (первый домен RISA_ECOLI со вторым доменом RISA_MYCTU).
|