Сначала я скопировала последовательности для выравнивания в файл shortseqs.fasta, чтобы затем импортировать в GeneDoc и, соответсвенно, выравнять. Результат выравнивания можно увидеть в документе alignment1.msf, либо на этом изображении:
Как видно, часть аминокислотных остатков совпадают. Есть несколько способов более или менее хорошо выровнять эти последовательности (например, можно заметит схожие остатки M и I), то в таких случаях количество и расположение гэпов сводит на нет все положительные изменения и самым адекватным выравниванием является такое (по матрице BLOSUM62).
Теперь построим карту локального сходства этих последовательностей. Результаты задания находятся в файле map.xlsx на первом листе. Единицей отмечены полностью совпадающие остатки, цифрой в скобочках - сходство остатков в матрице BLOSUM62. Цветом выделены ячейки, обозначающие путь выравнивания. Там где они идут по диагонали ровно вниз вправо, выравнивание проходит без перерывов и подряд; там, где есть разрывы в этой диагонали, соответсвенно, вставлены гэпы. Соответствие остатка гэпу показано в карте розовым цветом.
Теперь, пользуясь программой bl2seq, выровняем первый фрагмент из предыдущих заданий с последовательностью моего белка YABJ_BACSU (1QD9). Если выравнивать последовательности при параметрах по умолчанию, мы видим следующий результат:
>lcl|37901 unnamed protein product Length=23 Score = 52.0 bits (123), Expect = 1e-15, Method: Composition-based stats. Identities = 23/23 (100%), Positives = 23/23 (100%), Gaps = 0/23 (0%) Query 14 IGPYSQGIIVNNMFYSSGQIPLT 36 IGPYSQGIIVNNMFYSSGQIPLT Sbjct 1 IGPYSQGIIVNNMFYSSGQIPLT 23
Мы видим, что первая последовательность представляет собой часть второй (с 14го остатка по 36й).
Теперь выровняем последовательность моего белка с последовательностью гомологичного ему.
Первый белок - YABJ_BACSU из Bacillus subtilis;
Второй белок - MUG71_SCHPO из Schizosaccharomyces pombe.
Результаты выравнивания при параметрах по умолчанию здесь.
Как мы видим, есть два участка сходства.
Первый - 49-105 (326-383 во втором белке), процент идентичности - 41%, сходства - 59%, один гэп (2%), который представляет собой, очевидно, один разрыв.
Второй - 10-38 (417-445 во втором белке), процент идентичности - 62%, сходства - 69%, гэпов нет совсем, разрывов, соответственно, тоже.
Карта:
Попробуем выравнять те же последовательности при других параметрах. В первый раз мы изменим матрицу сходства на PAM70 (что-то, что менее всего похоже на исходную матрицу)), во второй - установим "ценность" гэпа на "Existence: 8 Extension:2". Целиком результаты выравниваний (первого и второго) здесь приводить не буду, их можно скачать по указанным ссылкам. Сравним области сходства всех трех выраниваний, включая самое первое при исходных настройках (назовем его нулевым).
Первый участок:
0: + +NL +L G S + V TV ++ M +FAE N VY +YFD T+ P+RSCV 1: +NL L G S V TV ++ M FAE N VY YFD T+ P+RSCV 2: + +NL +L G S + V TV ++ M +FAE N VY +YFD T+ P+RSCV
Процент идентичности 0 с 1 - 88,23%, 0 с 2 - 100%.
Второй участок:
0: APA IGPYSQ I N + + SGQI L PS 1: ++ APA IGPYSQ I N + SGQI L PS 2: APA IGPYSQ I N + + SGQI L PS ++ + ++ ++ L+ A A
Процент идентичности 0 с 1 - 86,36%, 0 с 2 - 64,51%.
Как мы видим, изменение параметра учета гэпов несильно повлияло на результаты, так как самих гэпов было достаточно мало.
Результаты этого задания находятся в том же файле map.xlsx на втором и третьем листе. Для заполнения матрицы использовались формулы, которые можно там же и посмотреть.