Работа в командной строке Linux. Программы выравнивания последовательностей пакета EMBOSS
MSTAKLVKSKATNLLYTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIHEMLDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQDHLKEА вот последовательность белка, ему сходного:
DRYAIVANDVRKAIGEAKDDDTADILTAASRDLDKFLWFIESNIE
MTSFTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEMIDPQVELGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQAHLAALDLVYNGVIEDTС помощью программы needle dps_ecoli.fasta dps_mycs2.fasta align1.needle -auto получил файл с оптимальным глобальным выравниванием двух белков align1.needle. После этого получил это же выравнивание в формате .msf (для программы GeneDoc) align1.msf. Как ни странно, в оптимальном выравнивании оказался всего один внутренний гэп, состоящий всего их 2 пробелов (на позициях №144 и №145):
SIEKLEDLDLVSQDLLIAHAGELEKFQWFVRAHLESAGGQLTHEGQSTEKGAADKARRKSA
DPS_ECOLI 1 MSTAKLVKSKATNLLYTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQA 50
...:|...:||.:.....:||.:|:..:.||.|..|..
DPS_MYCS2 1 ------------MTSFTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHV 38
DPS_ECOLI 51 HWNMRGANFIAVHEMLDGFRTALIDHLDTMAERAVQLGGVALGTTQVINS 100
|||:.|.|||.||||:|.....:..:.|.:|||...||....||...|..
DPS_MYCS2 39 HWNVVGPNFIGVHEMIDPQVELVRGYADEVAERIATLGKSPKGTPGAIIK 88
DPS_ECOLI 101 KTPLKSYPLDIHNVQDHLKELADRYAIVANDVRKAIGEAKDDD--TADIL 148
......|.::...||.||..|...|..|..|.||:|.:.:|.| :.|:|
DPS_MYCS2 89 DRTWDDYSVERDTVQAHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLL 138
DPS_ECOLI 149 TAASRDLDKFLWFIESNIE-------------------------- 167
.|.:.:|:||.||:.:::|
DPS_MYCS2 139 IAHAGELEKFQWFVRAHLESAGGQLTHEGQSTEKGAADKARRKSA 183
Второе выравнивание было сохранено в файле align2.needle и файле с форматом .msf align2.msf. Длина этого выравнивания - 195. Процент идентичности (на выравнивании идентичные буквы отмечены палочками) составляет 27,7% (54 буквы из 195), процент сходства (в выравнивании сходные буквы отмечены двоеточиями) составляет 41,0% (80 из 195), процент гэпов составляет 20,5% (40 из 195). В итоге, вес выравнивания равен 219,5 в первом выравнивании (когда штраф за открытие пропуска равен 10,0, а штраф за каждый последующий пробел в пропуске равен 0,5) и соответственно 209,0 во втором случае (когда штраф за открытие пропуска равен 20,0, а штраф за каждый последующий пробел в пропуске равен 1,0). Как видно, разница совсем невелика, что объясняется всего одним внутренним пропуском из двух пробелов, за первый из которых штраф увеличился на 10, а за второй на 0,5 (суммарно как раз на 10,5).
DPS_ECOLI 1 MSTAKLVKSKATNLLYTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQA 50
...:|...:||.:.....:||.:|:..:.||.|..|..
DPS_MYCS2 1 ------------MTSFTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHV 38
DPS_ECOLI 51 HWNMRGANFIAVHEMLDGFRTALIDHLDTMAERAVQLGGVALGTTQVINS 100
|||:.|.|||.||||:|.....:..:.|.:|||...||....||...|..
DPS_MYCS2 39 HWNVVGPNFIGVHEMIDPQVELVRGYADEVAERIATLGKSPKGTPGAIIK 88
DPS_ECOLI 101 KTPLKSYPLDIHNVQDHLKELADRYAIVANDVRKAIGEAKDDD--TADIL 148
......|.::...||.||..|...|..|..|.||:|.:.:|.| :.|:|
DPS_MYCS2 89 DRTWDDYSVERDTVQAHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLL 138
DPS_ECOLI 149 TAASRDLDKFLWFIESNIE-------------------------- 167
.|.:.:|:||.||:.:::|
DPS_MYCS2 139 IAHAGELEKFQWFVRAHLESAGGQLTHEGQSTEKGAADKARRKSA 183
Нетрудно заметить, что это локальное выравнивание отличается от глобального только тем, что начинается оно не с первых букв последовательностей, а с 16-й буквы в первой последовательности и 4-й во второй последовательности, а заканчивается соответственно 167-й буквой первой последовательности и 157-й буквой второй последовательности. Соответственно, длина такого выравнивания - 154, процент идентичности равен 35,1% (54 из 154), процент сходства равен 51,9% (80 из 154), а процент гэпов - 1,3% (2 из 154). Так как "ненужные" концы глобального выравнивания отрезаны, то вес этого выравнивания немного возрос - он стал равен 224,5 (всего на 5 больше, чем в глобальном выравнивании).
DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
:|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53
DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
:|.....:..:.|.:|||...||....||...|........|.::...||
DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103
DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
.||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153
DPS_ECOLI 164 SNIE 167
:::|
DPS_MYCS2 154 AHLE 157
Оно было сохранено в файле aign4.water и в файле с форматом .msf align4.msf. Вес этого выравнивания немного меньше, чем в первом случае. Он равен 214,0.
DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
:|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53
DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
:|.....:..:.|.:|||...||....||...|........|.::...||
DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103
DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
.||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153
DPS_ECOLI 164 SNIE 167
:::|
DPS_MYCS2 154 AHLE 157
Длина этого выравнивания - 172, процент идентичности равен 36,0% (62 из 172), процент сходства - 52,9% (91 из 172), процент гэпов - 18,6% (32 из 172). Вес выравнивания раввен 256,0. Сразу нужно заметить, что в отличие от других локальных выравниваний, это начинается с 12-й позиции первой последовательности и со 2-й позиции второй последовательности (заканчивается теми же позициями, что и остальные локальные выравнивания). Как видно, совпавших букв стало не намного больше, чем в первом локальном выравнивании, зато количество гэпов возросло во много раз, теперь они составляют уже 18,6% (в первом выравнивании составляли всего 1,3%). Если присмотреться, то становится видно, что самые крупные участки совпадающих и сходных букв в третьем выравнивании совпадают с таковыми из второго и первого выравниваний, и лишь немногие короткие участки не совпадают из-за меньшего штрафа за гэпы:
DPS_ECOLI 12 TNLLYTRNDVSDSEKKAT--VELLNRQVIQFIDLSLITKQAHWNMRGANF 59
|: :|...:|| |||: .:||.:|:..:.||.|..|..|||:.|.||
DPS_MYCS2 2 TS--FTIPGLSD--KKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNF 47
DPS_ECOLI 60 IAVHEMLD-------GFRTALIDHLDTMAERAVQLGGVALGTT-QVINSK 101
|.||||:| |: | |.:|||...||....||. .:|..:
DPS_MYCS2 48 IGVHEMIDPQVELVRGY--A-----DEVAERIATLGKSPKGTPGAIIKDR 90
DPS_ECOLI 102 TPLKSYPLDIHNVQDHLKELADRYAIVAN----DVRKAIGEAKDDD--TA 145
| ...|.::...||.||..| | :|.| |.||:|.:.:|.| :.
DPS_MYCS2 91 T-WDDYSVERDTVQAHLAAL-D---LVYNGVIEDTRKSIEKLEDLDLVSQ 135
DPS_ECOLI 146 DILTAASRDLDKFLWFIESNIE 167
|:|.|.:.:|:||.||:.:::|
DPS_MYCS2 136 DLLIAHAGELEKFQWFVRAHLE 157
Это первое выравнивание, в нем самые крупные участки совпадающих и сходных букв отмечены более крупным шрифтом. А вот третье выравнивание (эти же участки отмечены более крупным шрифтом):
DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
:|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53
DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
:|.....:..:.|.:|||...||....||...|........|.::...||
DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103
DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
.||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153
DPS_ECOLI 164 SNIE 167
:::|
DPS_MYCS2 154 AHLE 157
Мне кажется, что хоть процент идентичности и сходства в третьем выравнивании вырос по сравнению с первым и вторым, короткие участки сходных букв, отличающие третье выравнивание от первых двух (отмеченные более мелким шрифтом) не дают нам уверенности в том, что это функционально важные домены белка, передающиеся в процессе эволюции. Остается непонятным, имеют они хоть какой-то биологический смысл или первое и третье выравнивание следует считать одинаково осмысленными.
DPS_ECOLI 12 TNLLYTRNDVSDSEKKAT--VELLNRQVIQFIDLSLITKQAHWNMRGANF 59
|: :|...:|| |||: .:||.:|:..:.||.|..|..|||:.|.||
DPS_MYCS2 2 TS--FTIPGLSD--KKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNF 47
DPS_ECOLI 60 IAVHEMLD-------GFRTALIDHLDTMAERAVQLGGVALGTT-QVINSK 101
|.||||:| |: | |.:|||...||....||. .:|..:
DPS_MYCS2 48 IGVHEMIDPQVELVRGY--A-----DEVAERIATLGKSPKGTPGAIIKDR 90
DPS_ECOLI 102 TPLKSYPLDIHNVQDHLKELADRYAIVAN----DVRKAIGEAKDDD--TA 145
| ...|.::...||.||..| | :|.| |.||:|.:.:|.| :.
DPS_MYCS2 91 T-WDDYSVERDTVQAHLAAL-D---LVYNGVIEDTRKSIEKLEDLDLVSQ 135
DPS_ECOLI 146 DILTAASRDLDKFLWFIESNIE 167
|:|.|.:.:|:||.||:.:::|
DPS_MYCS2 136 DLLIAHAGELEKFQWFVRAHLE 157
DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
:|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53
DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
:|.....:..:.|.:|||...||....||...|........|.::...||
DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103
DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
.||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153
DPS_ECOLI 164 SNIE 167
:::|
DPS_MYCS2 154 AHLE 157
DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
:|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53
DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
:|.....:..:.|.:|||...||....||...|........|.::...||
DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103
DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
.||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153
DPS_ECOLI 164 SNIE 167
:::|
DPS_MYCS2 154 AHLE 157
Это первое выравнивание. В нем три пары совпавших букв, несовпадающие с таковыми в третьем выравнивании, отмечены более крупным шрифтом. А вот третье выравнивание (на нем пары, содержащие эти буквы, отмечены более крупным шрифтом):
DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
:|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53
DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
:|.....:..:.|.:|||...||....||...|........|.::...||
DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103
DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
.||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153
DPS_ECOLI 164 SNIE 167
:::|
DPS_MYCS2 154 AHLE 157
Это говорит о том, что это, вероятнее всего, биологически осмысленные выравнивания для совпадающих и в первом, и в третьем выравниваниях фрагментов (тем более они довольно большие), чего нельзя с уверенностью сказать для несовпадающих в первом и третьем выравниваниях коротких фрагментов букв.
DPS_ECOLI 12 TNLLYTRNDVSDSEKKAT--VELLNRQVIQFIDLSLITKQAHWNMRGANF 59
|: :|...:|| |||: .:||.:|:..:.||.|..|..|||:.|.||
DPS_MYCS2 2 TS--FTIPGLSD--KKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNF 47
DPS_ECOLI 60 IAVHEMLD-------GFRTALIDHLDTMAERAVQLGGVALGTT-QVINSK 101
|.||||:| |: | |.:|||...||....||. .:|..:
DPS_MYCS2 48 IGVHEMIDPQVELVRGY--A-----DEVAERIATLGKSPKGTPGAIIKDR 90
DPS_ECOLI 102 TPLKSYPLDIHNVQDHLKELADRYAIVAN----DVRKAIGEAKDDD--TA 145
| ...|.::...||.||..| | :|.| |.||:|.:.:|.| :.
DPS_MYCS2 91 T-WDDYSVERDTVQAHLAAL-D---LVYNGVIEDTRKSIEKLEDLDLVSQ 135
DPS_ECOLI 146 DILTAASRDLDKFLWFIESNIE 167
|:|.|.:.:|:||.||:.:::|
DPS_MYCS2 136 DLLIAHAGELEKFQWFVRAHLE 157
Длина этого выравнивания - 13. Процент идентичности составляет 38,5% (5 из 13), процент сходства - 61,5% (8 из 13), гэпов в выравнивании нет. Вес такого выравнивания равен 28. Это очень неплохой вес для такого короткого выравнивания. Очень интересно то, что в этом выравнивании 136-й букве первой последовательности соответствует 9-я буква второй последовательности. Хочу заметить, что это локальное выравнивание отчетливо видно на карте локального сходства из задания 1 (диагональная линия в правом нижнем углу, как раз, соответствует концу последовательности белка DPS_ECOLI и началу последовательности DPS_MYCS2). Таким образом, гипотеза о сохранении этого фрагмента при эволюции белка некоторым образом подтверждается (тем более, вес выравнивания, как было замечено, очень большой).
140
DPS_EC IGEAKDDDTADIL
. . : : ::.:
DPS_MY LSDKKASDVADLL
10 20
110 120 DPS_EC LDIHNVQDHLKELADRYA . .: . : :: :: DPS_MY IGVHEMIDPQVELVRGYA 50 60В этом выравнивании процент идентичности составляет 33,3% (6 из 18), а процент сходства - 50,0% (9 из 18). Как видно, по сравнению с первым выравниванием, вес этого относительно гораздо меньше, как и процент идентичности и сходства. Важно заметить, что в первом выравнивании все буквы были сходны или идентичны, во втором же выравнивании имеются 3 пары несходных букв, вес которых отрицателен. Как и в первом случае, выравниваются разные фрагменты последовательностей: 109-й букве первой последовательности соответствует 48-я буква второй последовательности.
Назад