Работа в командной строке Linux. Программы выравнивания последовательностей пакета EMBOSS

  1. Работа в командной строке Linux и программах пакета EMBOSS

    1. Смена активной директории и просмотр содержимого директорий

      • После захода посредством программы "putty" на машину kodomo-count.fbb.msu.ru выполнил команду "ls". В ответ получил список содержимого директории /home/students/y08/alex2308.
      • Выполнил команду "cd .." и после нее команду "ls". При этом увидел опять содержимое родительской директории. Повторил эти команды до тех пор, пока картина не перестала меняться. В конце получил содержимое директории /. Из этого сделал вывод, что команда "cd .." делает активной родительскую директорию.
      • Перешел с помощью команды "cd" в домашнюю директорию, после чего выполнил команду "pwd" и получил следующий результат: /home/students/y08/alex2308. Следовательно, эта команда показывает полное имя активной директории.
      • Сделал активной директорию Practice5, для чего выполнил команду "cd Term2" и "cd Practice5". Просмотрел содержимое с помощью команды "ls", получил следующий результат: Aln2.html. Это файл протокола. Пока он в директории один.

    2. Некоторые способы облегчения работы в командной строке

      • Клавиши "стрелка вверх" и "стрелка вниз" позволяют использовать команды, уже введенные ранее в командном окне.
      • Команда "history" выдает всю последовательность введенных команд.
      • Если ввести в командной строке "more", а затем после пробела - первую букву имени файла, первая буква которого отличается от первых букв всех других файлов, а затем нажать клавишу "Tab", программа выдаст целиком имя этого файла. Если после этого нажать "Enter", программа выдаст содержимое этого файла.

    3. Создание и просмотр файлов

      • С помощью программы seqret создал файл "dps_ecoli.fasta". Выполнил команду "more dps_ecoli.fasta", увидел содержимое PDB-файла с последовательностью белка DPS_ECOLI.
      • С помощью программы entret создал файл "dps_ecoli.entret". Выполнил команду "more dps_ecoli.entret", увидел содержимое файла о белке из базы данных UniProt-KB.

  2. Построение и сравнение оптимальных глобальных и оптимальных локальных выравниваний двух последовательностей

    1. Построение полного (глобального) оптимального выравнивания с помощью программы needle пакета EMBOSS

      С помощью программы seqret создал файл с последовательностью белка, родственного моему.
      Вот последовательность моего белка:
      MSTAKLVKSKATNLLYTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIHEMLDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQDHLKE
      
      DRYAIVANDVRKAIGEAKDDDTADILTAASRDLDKFLWFIESNIE
      А вот последовательность белка, ему сходного:
      MTSFTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEMIDPQVELGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQAHLAALDLVYNGVIEDT
      
      SIEKLEDLDLVSQDLLIAHAGELEKFQWFVRAHLESAGGQLTHEGQSTEKGAADKARRKSA
      С помощью программы needle dps_ecoli.fasta dps_mycs2.fasta align1.needle -auto получил файл с оптимальным глобальным выравниванием двух белков align1.needle. После этого получил это же выравнивание в формате .msf (для программы GeneDoc) align1.msf. Как ни странно, в оптимальном выравнивании оказался всего один внутренний гэп, состоящий всего их 2 пробелов (на позициях №144 и №145):

      DPS_ECOLI 1 MSTAKLVKSKATNLLYTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQA 50
      ...:|...:||.:.....:||.:|:..:.||.|..|..
      DPS_MYCS2 1 ------------MTSFTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHV 38

      DPS_ECOLI 51 HWNMRGANFIAVHEMLDGFRTALIDHLDTMAERAVQLGGVALGTTQVINS 100
      |||:.|.|||.||||:|.....:..:.|.:|||...||....||...|..
      DPS_MYCS2 39 HWNVVGPNFIGVHEMIDPQVELVRGYADEVAERIATLGKSPKGTPGAIIK 88

      DPS_ECOLI 101 KTPLKSYPLDIHNVQDHLKELADRYAIVANDVRKAIGEAKDDD--TADIL 148
      ......|.::...||.||..|...|..|..|.||:|.:.:|.| :.|:|
      DPS_MYCS2 89 DRTWDDYSVERDTVQAHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLL 138

      DPS_ECOLI 149 TAASRDLDKFLWFIESNIE-------------------------- 167
      .|.:.:|:||.||:.:::|
      DPS_MYCS2 139 IAHAGELEKFQWFVRAHLESAGGQLTHEGQSTEKGAADKARRKSA 183

      Так как в выравнивании всего один маленький внутренний гэп, вполне логично, что при назначении параметрам штрафов значений в два раза больше в выравнивании ничего не изменится. Так оно и оказалось:

      DPS_ECOLI 1 MSTAKLVKSKATNLLYTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQA 50
      ...:|...:||.:.....:||.:|:..:.||.|..|..
      DPS_MYCS2 1 ------------MTSFTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHV 38

      DPS_ECOLI 51 HWNMRGANFIAVHEMLDGFRTALIDHLDTMAERAVQLGGVALGTTQVINS 100
      |||:.|.|||.||||:|.....:..:.|.:|||...||....||...|..
      DPS_MYCS2 39 HWNVVGPNFIGVHEMIDPQVELVRGYADEVAERIATLGKSPKGTPGAIIK 88

      DPS_ECOLI 101 KTPLKSYPLDIHNVQDHLKELADRYAIVANDVRKAIGEAKDDD--TADIL 148
      ......|.::...||.||..|...|..|..|.||:|.:.:|.| :.|:|
      DPS_MYCS2 89 DRTWDDYSVERDTVQAHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLL 138

      DPS_ECOLI 149 TAASRDLDKFLWFIESNIE-------------------------- 167
      .|.:.:|:||.||:.:::|
      DPS_MYCS2 139 IAHAGELEKFQWFVRAHLESAGGQLTHEGQSTEKGAADKARRKSA 183
      Второе выравнивание было сохранено в файле align2.needle и файле с форматом .msf align2.msf. Длина этого выравнивания - 195. Процент идентичности (на выравнивании идентичные буквы отмечены палочками) составляет 27,7% (54 буквы из 195), процент сходства (в выравнивании сходные буквы отмечены двоеточиями) составляет 41,0% (80 из 195), процент гэпов составляет 20,5% (40 из 195). В итоге, вес выравнивания равен 219,5 в первом выравнивании (когда штраф за открытие пропуска равен 10,0, а штраф за каждый последующий пробел в пропуске равен 0,5) и соответственно 209,0 во втором случае (когда штраф за открытие пропуска равен 20,0, а штраф за каждый последующий пробел в пропуске равен 1,0). Как видно, разница совсем невелика, что объясняется всего одним внутренним пропуском из двух пробелов, за первый из которых штраф увеличился на 10, а за второй на 0,5 (суммарно как раз на 10,5).
    2. Построение локального (частичного) оптимального выравнивания тех же последовательностей с помощью программы water пакета EMBOSS

      С помощью программы water dps_ecoli.fasta dps_mycs2.fasta align3.water -auto получил файл с оптимальным локальным выравниванием двух белков align3.water. После этого получил это же выравнивание в формате .msf (для программы GeneDoc) align3.msf. Так выглядит полученное выравнивание:

      DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
      :|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
      DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53

      DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
      :|.....:..:.|.:|||...||....||...|........|.::...||
      DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103

      DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
      .||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
      DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153

      DPS_ECOLI 164 SNIE 167
      :::|
      DPS_MYCS2 154 AHLE 157
      Нетрудно заметить, что это локальное выравнивание отличается от глобального только тем, что начинается оно не с первых букв последовательностей, а с 16-й буквы в первой последовательности и 4-й во второй последовательности, а заканчивается соответственно 167-й буквой первой последовательности и 157-й буквой второй последовательности. Соответственно, длина такого выравнивания - 154, процент идентичности равен 35,1% (54 из 154), процент сходства равен 51,9% (80 из 154), а процент гэпов - 1,3% (2 из 154). Так как "ненужные" концы глобального выравнивания отрезаны, то вес этого выравнивания немного возрос - он стал равен 224,5 (всего на 5 больше, чем в глобальном выравнивании).

      Второе локальное выравнивание (с удвоенными штрафами за гэпы), как и в случае с глобальными, ничем не отличается от первого:

      DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
      :|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
      DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53

      DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
      :|.....:..:.|.:|||...||....||...|........|.::...||
      DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103

      DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
      .||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
      DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153

      DPS_ECOLI 164 SNIE 167
      :::|
      DPS_MYCS2 154 AHLE 157
      Оно было сохранено в файле aign4.water и в файле с форматом .msf align4.msf. Вес этого выравнивания немного меньше, чем в первом случае. Он равен 214,0.

      Больший интерес представляет третье выравнивание (когда штраф за открытие гэпа равен 5,0, а за каждый последующий пробел в пропуске - 0,25). Это выравнивание было сохранено в файле align5.water и в файле с форматом .msf align5.msf. Оно выглядит следующим образом:

      DPS_ECOLI 12 TNLLYTRNDVSDSEKKAT--VELLNRQVIQFIDLSLITKQAHWNMRGANF 59
      |: :|...:|| |||: .:||.:|:..:.||.|..|..|||:.|.||
      DPS_MYCS2 2 TS--FTIPGLSD--KKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNF 47

      DPS_ECOLI 60 IAVHEMLD-------GFRTALIDHLDTMAERAVQLGGVALGTT-QVINSK 101
      |.||||:| |: | |.:|||...||....||. .:|..:
      DPS_MYCS2 48 IGVHEMIDPQVELVRGY--A-----DEVAERIATLGKSPKGTPGAIIKDR 90

      DPS_ECOLI 102 TPLKSYPLDIHNVQDHLKELADRYAIVAN----DVRKAIGEAKDDD--TA 145
      | ...|.::...||.||..| | :|.| |.||:|.:.:|.| :.
      DPS_MYCS2 91 T-WDDYSVERDTVQAHLAAL-D---LVYNGVIEDTRKSIEKLEDLDLVSQ 135

      DPS_ECOLI 146 DILTAASRDLDKFLWFIESNIE 167
      |:|.|.:.:|:||.||:.:::|
      DPS_MYCS2 136 DLLIAHAGELEKFQWFVRAHLE 157
      Длина этого выравнивания - 172, процент идентичности равен 36,0% (62 из 172), процент сходства - 52,9% (91 из 172), процент гэпов - 18,6% (32 из 172). Вес выравнивания раввен 256,0. Сразу нужно заметить, что в отличие от других локальных выравниваний, это начинается с 12-й позиции первой последовательности и со 2-й позиции второй последовательности (заканчивается теми же позициями, что и остальные локальные выравнивания). Как видно, совпавших букв стало не намного больше, чем в первом локальном выравнивании, зато количество гэпов возросло во много раз, теперь они составляют уже 18,6% (в первом выравнивании составляли всего 1,3%). Если присмотреться, то становится видно, что самые крупные участки совпадающих и сходных букв в третьем выравнивании совпадают с таковыми из второго и первого выравниваний, и лишь немногие короткие участки не совпадают из-за меньшего штрафа за гэпы:

      DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
      :|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
      DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53

      DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
      :|.....:..:.|.:|||...||....||...|........|.::...||
      DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103

      DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
      .||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
      DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153

      DPS_ECOLI 164 SNIE 167
      :::|
      DPS_MYCS2 154 AHLE 157
      Это первое выравнивание, в нем самые крупные участки совпадающих и сходных букв отмечены более крупным шрифтом. А вот третье выравнивание (эти же участки отмечены более крупным шрифтом):

      DPS_ECOLI 12 TNLLYTRNDVSDSEKKAT--VELLNRQVIQFIDLSLITKQAHWNMRGANF 59
      |: :|...:|| |||: .:||.:|:..:.||.|..|..|||:.|.||
      DPS_MYCS2 2 TS--FTIPGLSD--KKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNF 47

      DPS_ECOLI 60 IAVHEMLD-------GFRTALIDHLDTMAERAVQLGGVALGTT-QVINSK 101
      |.||||:| |: | |.:|||...||....||. .:|..:
      DPS_MYCS2 48 IGVHEMIDPQVELVRGY--A-----DEVAERIATLGKSPKGTPGAIIKDR 90

      DPS_ECOLI 102 TPLKSYPLDIHNVQDHLKELADRYAIVAN----DVRKAIGEAKDDD--TA 145
      | ...|.::...||.||..| | :|.| |.||:|.:.:|.| :.
      DPS_MYCS2 91 T-WDDYSVERDTVQAHLAAL-D---LVYNGVIEDTRKSIEKLEDLDLVSQ 135

      DPS_ECOLI 146 DILTAASRDLDKFLWFIESNIE 167
      |:|.|.:.:|:||.||:.:::|
      DPS_MYCS2 136 DLLIAHAGELEKFQWFVRAHLE 157
      Мне кажется, что хоть процент идентичности и сходства в третьем выравнивании вырос по сравнению с первым и вторым, короткие участки сходных букв, отличающие третье выравнивание от первых двух (отмеченные более мелким шрифтом) не дают нам уверенности в том, что это функционально важные домены белка, передающиеся в процессе эволюции. Остается непонятным, имеют они хоть какой-то биологический смысл или первое и третье выравнивание следует считать одинаково осмысленными.
      Итак, подведем итог.
      • Есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных глобальных выравниваниях сопоставлены разные позиции второй последовательности?
        Нет, глобальные выравнивания с разными параметрами оказались идентичными, по причине всего одного пропуска в выравнивании (на 144-й и 145-й позициях; за него начисляется в любом случае относительно небольшой штраф).

      • Есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных локальных выравниваниях сопоставлены разные позиции второй последовательности?
        Первое и второе локальное выравнивание оказались идентичными (как и в случае с глобальными выравниваниями). Третье выравнивание отличается от первого и второго. И примеров того, что одной и той же позиции первой последовательности в первых двух выравниваниях сопоставлена одна позиция второй последовательности, а в третьем выравнивании совсем другая позиция, достаточно много. Далее жирным шрифтом я отметил те буквы в первом локальном выравнивании, против которых в третьем сопоставлены другие буквы (не считая гэпов):

        DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
        :|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
        DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53

        DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
        :|.....:..:.|.:|||...||....||...|........|.::...||
        DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103

        DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
        .||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
        DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153

        DPS_ECOLI 164 SNIE 167
        :::|
        DPS_MYCS2 154 AHLE 157


      • Есть ли хотя бы один пример того, что в одном глобальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?
        Нет, глобальные выравнивания оказались идентичными.

      • Есть ли хотя бы один пример того, что в одном локальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?
        Да, такие примеры есть, если мы сравниваем первые два выравнивания с третьим. Причем, нет ни одного примера случаю, когда напротив какой-либо буквы в третьем выравнивании стоит буква, а в первом и втором выравниваниях напротив этой же буквы стоит гэп (есть примеры лишь обратного случая). Далее жирным шрифтом отмечены те буквы в последовательностях первого и второго выравнивания, напротив которых в третьем выравнивании стоит гэп:

        DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
        :|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
        DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53

        DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
        :|.....:..:.|.:|||...||....||...|........|.::...||
        DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103

        DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
        .||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
        DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153

        DPS_ECOLI 164 SNIE 167
        :::|
        DPS_MYCS2 154 AHLE 157


      • Соответствуют ли оптимальные локальные выравнивания, построенными с использованием разных параметров, одним и тем же фрагментам последовательностей?
        Первое и второе локальные выравнивания совпадают полностью. В третьем выравнивании сопоставлены большие фрагменты последовательностей, чем в первом и во втором. Так, в первом и во втором выравниваниях сопоставляются с 16-го по 167-й аминокислотные остатки первой последовательности и с 4-го по 157-й остатки второй последовательности, а в третьем выравнивании сопоставляются с 12-го по 167-й аминокислотные остатки первой последовательности и со 2-го по 157-й аминокислотные остатки второй последовательности.

      • Совпадают ли локальные выравнивания с соответствующими частями глобальных выравниваний?
        Первое и второе локальные выравнивания полностью совпадают с соответствующими частями глобального выравнивания. Третье же выравнивание не совпадает с соответствующим участком глобального выравнивания. Очень интересным оказалось то, что, сравнив первое и третье локальные выравнивания, я заметил, что пары совпавших букв в первом выравнивании имеют в точности место в третьем выравнивании (все, кроме всего 3 из 54):

        DPS_ECOLI 16 YTRNDVSDSEKKATVELLNRQVIQFIDLSLITKQAHWNMRGANFIAVHEM 65
        :|...:||.:.....:||.:|:..:.||.|..|..|||:.|.|||.||||
        DPS_MYCS2 4 FTIPGLSDKKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNFIGVHEM 53

        DPS_ECOLI 66 LDGFRTALIDHLDTMAERAVQLGGVALGTTQVINSKTPLKSYPLDIHNVQ 115
        :|.....:..:.|.:|||...||....||...|........|.::...||
        DPS_MYCS2 54 IDPQVELVRGYADEVAERIATLGKSPKGTPGAIIKDRTWDDYSVERDTVQ 103

        DPS_ECOLI 116 DHLKELADRYAIVANDVRKAIGEAKDDD--TADILTAASRDLDKFLWFIE 163
        .||..|...|..|..|.||:|.:.:|.| :.|:|.|.:.:|:||.||:.
        DPS_MYCS2 104 AHLAALDLVYNGVIEDTRKSIEKLEDLDLVSQDLLIAHAGELEKFQWFVR 153

        DPS_ECOLI 164 SNIE 167
        :::|
        DPS_MYCS2 154 AHLE 157
        Это первое выравнивание. В нем три пары совпавших букв, несовпадающие с таковыми в третьем выравнивании, отмечены более крупным шрифтом. А вот третье выравнивание (на нем пары, содержащие эти буквы, отмечены более крупным шрифтом):

        DPS_ECOLI 12 TNLLYTRNDVSDSEKKAT--VELLNRQVIQFIDLSLITKQAHWNMRGANF 59
        |: :|...:|| |||: .:||.:|:..:.||.|..|..|||:.|.||
        DPS_MYCS2 2 TS--FTIPGLSD--KKASDVADLLQKQLSTYNDLHLTLKHVHWNVVGPNF 47

        DPS_ECOLI 60 IAVHEMLD-------GFRTALIDHLDTMAERAVQLGGVALGTT-QVINSK 101
        |.||||:| |: | |.:|||...||....||. .:|..:
        DPS_MYCS2 48 IGVHEMIDPQVELVRGY--A-----DEVAERIATLGKSPKGTPGAIIKDR 90

        DPS_ECOLI 102 TPLKSYPLDIHNVQDHLKELADRYAIVAN----DVRKAIGEAKDDD--TA 145
        | ...|.::...||.||..| | :|.| |.||:|.:.:|.| :.
        DPS_MYCS2 91 T-WDDYSVERDTVQAHLAAL-D---LVYNGVIEDTRKSIEKLEDLDLVSQ 135

        DPS_ECOLI 146 DILTAASRDLDKFLWFIESNIE 167
        |:|.|.:.:|:||.||:.:::|
        DPS_MYCS2 136 DLLIAHAGELEKFQWFVRAHLE 157
        Это говорит о том, что это, вероятнее всего, биологически осмысленные выравнивания для совпадающих и в первом, и в третьем выравниваниях фрагментов (тем более они довольно большие), чего нельзя с уверенностью сказать для несовпадающих в первом и третьем выравниваниях коротких фрагментов букв.

Дополнительные задания

  1. Построение карты локального сходства заданных последовательностей с помощью программы dotmatcher пакета EMBOSS

    С помощью программы dotmatcher, выполнив команду dotmatcher dps_ecoli.fasta dps_mycs2.fasta -graph ps, я получил карту локального сходства заданных последовательностей в формате .ps, после чего с помощью программы Corel Photo-paint перекодировал его в формат JPG:

    Как видно из карты, сходны у последовательностей двух белков 3 фрагмента, один из которых примерно в два раза длиннее двух других (этот фрагмент, кстати, располагается примерно в одной и той же части последовательности и у DPS_ECOLI, и у DPS_MYCS2 - на уровне 45-70 позициях последовательностей). Причем, очень интересным мне кажется то, что два сходных фрагмента расположены на белке DPS_ECOLI один за другим, а у белка DPS_MYCS2 между ними расположено около 100 аминокислотных остатков. Возможно, это объясняется тем, что в процессе видообразования произошла хромосомная мутация в виде перемешивания и дупликации, в процессе чего между этими фрагментами, исходно располагавшимися одна за другой в белке LPS_ECOLI, встроился большой кусок другого фрагмента. Скорее всего, один из этих двух фрагментов является не очень функциональным, раз такая мутация не привела к гибели организма, или же это два совершенно разных домена, удачно разрезанных в процессе эволюции.
  2. Получение нескольких субоптимальных локальных выравниваний заданных последовательностей с помощью программы matcher пакета EMBOSS. Выбор лучших из них, в которых фрагменты последовательностей не совпадают с выровненными фрагментами в оптимальном выравнивании

    С помощью программы matcher я получил 5 субоптимальных выравниваний, введя следующую команду: matcher dps_ecoli.fasta dps_mycs2.fasta match.matcher -alternatives 5. Полученные выравнивания были сохранены в файле match.matcher. Из 4 выравниваний меня больше всего заинтересовали 2. Первое из них выглядит следующим образом:

    140
    DPS_EC IGEAKDDDTADIL
    . . : : ::.:
    DPS_MY LSDKKASDVADLL
    10 20
    Длина этого выравнивания - 13. Процент идентичности составляет 38,5% (5 из 13), процент сходства - 61,5% (8 из 13), гэпов в выравнивании нет. Вес такого выравнивания равен 28. Это очень неплохой вес для такого короткого выравнивания. Очень интересно то, что в этом выравнивании 136-й букве первой последовательности соответствует 9-я буква второй последовательности. Хочу заметить, что это локальное выравнивание отчетливо видно на карте локального сходства из задания 1 (диагональная линия в правом нижнем углу, как раз, соответствует концу последовательности белка DPS_ECOLI и началу последовательности DPS_MYCS2). Таким образом, гипотеза о сохранении этого фрагмента при эволюции белка некоторым образом подтверждается (тем более, вес выравнивания, как было замечено, очень большой).

    Второе субоптимальное выравнивание имеет также небольшую длину - 18, и большой для такой длины вес - 26 (хотя и меньше, чем в первом случае). Вот оно:
          110       120      
    DPS_EC LDIHNVQDHLKELADRYA
           . .: . :   ::   ::
    DPS_MY IGVHEMIDPQVELVRGYA
            50        60     
    
    В этом выравнивании процент идентичности составляет 33,3% (6 из 18), а процент сходства - 50,0% (9 из 18). Как видно, по сравнению с первым выравниванием, вес этого относительно гораздо меньше, как и процент идентичности и сходства. Важно заметить, что в первом выравнивании все буквы были сходны или идентичны, во втором же выравнивании имеются 3 пары несходных букв, вес которых отрицателен. Как и в первом случае, выравниваются разные фрагменты последовательностей: 109-й букве первой последовательности соответствует 48-я буква второй последовательности.
    Таким образом, рассмотрение субоптимальных выравниваний имеет большой смысл для изучения сходства последовательностей. Ведь нужно понимать, что если наилучшее глобальное выравнивание двух последовательностей может быть только одно, то наилучших локальных выравниваний может быть несколько (а даже если одно локальное выравнивание имеет вес немного больше, чем другое, это не значит, что второе выравнивание не нужно рассматривать, оно может оказаться тоже верным, особенно если у гомолога произошла дупликация доменов, в результате чего появилось два похожих (или идентичных) фрагмента, гомологичных одному фрагменту исходной последовательности). Программа matcher позволяет нам рассмотреть субоптимальные выравнивания, мы можем увидеть хорошие выравнивания фрагментов последовательностей, расположенных, например, в совершенно разных частях последовательностей, сравнить их с лучшим выравниванием, сделать определенные выводы. Это имеет большой биологический смысл, ведь многие домены могут дуплицироваться и перемешиваться от хромосомы к хромосоме в процессе эволюции.

Назад