1. Ручное выравнивание в GeneDoc
Выравнивание двух коротких последовательностей потребовало вставки всего двух гэпов в нужных местах. Результат. Идентичные остатки (56%):
Схожие остатки по группам (подсветка по включению кнопки Toggle similarity groups, 68%):
Если пересчитать процент сходства вручную по матрице BLOSUM62, получится 72% — всё то же, что и в предыдущем случае, но D и E по этой матрице считаются схожими (что логично).
2. Карта локального сходства
Для введения букв по одной в ячейку лучше воспользоваться не формулой, а sed
. Это как-то проще. В любом случае, получится вот:
Здесь темно-зеленым покрашены совпадающие остатки, светло-зеленым — схожие по свойствам, желтым — дополняющие выравнивание, но не похожие. Пустая строка соответствует гэпу в первой последовательности, пустой столбец — во второй. «Лесенка» соответствует совпадающим подряд фрагментам.
Построенное таким образом выравнивание совпадает с тем, которое было получено в первом задании.
3. Выравнивание с bl2seq
Вот что сказал BLAST:
Score = 83.8 bits (190), Expect = 6e-25 Identities = 24/24 (100%), Positives = 24/24 (100%), Gaps = 0/24 (0%) Query 1 ISMPGGFGTYEELFEVLCWAQIGI 24 ISMPGGFGTYEELFEVLCWAQIGI Sbjct 102 ISMPGGFGTYEELFEVLCWAQIGI 125
Отсюда видно, что фрагмент взят со 102-го по 125-й остаток.
Кстати, любопытства ради, попросим bl2seq
построить выравнивание двух последовательностей из первого задания:
Query 3 MPGGFGTYEELFEVLCWAQIG 23 +PGGFG+++ LF VL QIG Sbjct 4 VPGGFGSFDLLF-VLGMEQIG 23
Как видно, оно практически полностью совпало с построенным вручную (единственное отличие: здесь метионин-3 поставлен в соответствие валину-4, а не лейцину-3).
4. Выравнивание с гомологом
Итак, в качестве гомолога к моему многострадальному YVDD_BACSU
(напомню: функция точно неизвестна, ID YVDD
присвоен по положению в цепи ДНК, метаболических путей нет, статей нет, полезных ископаемых нет) прилагается MPRF_BACSU
. Оба они из сенной палочки. Ну что ж, выровняем (со всеми параметрами по умолчанию):
Score = 30.8 bits (68), Expect = 3e-05, Method: Composition-based stats. Identities = 16/32 (50%), Positives = 23/32 (72%), Gaps = 2/32 (6%) Query 100 GFISM-PGGFGTYEELFEVLCWAQIGIHQKPI 130 G IS+ PGGFG+++ LF +L Q+G HQ+ I Sbjct 246 GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAI 276 Score = 16.2 bits (30), Expect = 1.6, Method: Composition-based stats. Identities = 6/12 (50%), Positives = 8/12 (67%), Gaps = 0/12 (0%) Query 150 IQEGFSNESHLK 161 + E F NE+H K Sbjct 595 VLEEFLNEAHQK 606
Для первого, основного совпадения процент идентичности: 50%, процент сходства: 72%, колонок с гэпами: 2 (6%), подряд гэпы не встречаются. Координаты выровненных участков: YVDD_BACSU — фрагмент 100..130, MPRF_BACSU — 246..276. Собственно, это та же область, которая фигурировала в первом задании с короткими последовательностями. Второе частичное выравнивание скорее создает шум, чем реально полезно, поэтому его мы рассматривать не будем. Карта локального сходства:
Cходство этого конкретного участка в принципе заметно, но что-то я все равно не очень впечатлен. Я ставлю под сомнение тот факт, что эти два белка гомологичны. Тем более что MPRF_BACSU относится к трансферазам, а YVDD_BACSU — к семейству LOG, которое входит в класс гидролаз. Возможно, это некоторое сходство обусловлено наличием субструктур, выполняющих какие-то похожие функции. Большое же сходство — это, например, вот такое: возьмем наш белок YVDD_BACSU (напоминаю, предполагаемая цитокинин-фосфорибогидролаза) и для сравнения самую настоящую фосфорибогидролазу из риса, LOG_ORYSJ
. Вот это сходство гомологичных белков, да:
Score = 157 bits (441), Expect = 1e-56, Method: Compositional matrix adjust. Identities = 79/179 (44%), Positives = 119/179 (66%), Gaps = 0/179 (0%) Query 1 MKTICVFAGSNPGGNEAYKRKAAELGVYMAEQGIGLVYGGSRVGLMGTIADAIMENGGTAIGVMPSGLFSGEVVHQNLTELIEVNGMHERKAKMSELADGFISMPGGFGTYEELFEVLCWAQIGIHQKPIGLYNVNGYFEPMMKMVKYSIQEGFSNESHLKLIHSSSRPDELIEQMQNY 179 + ICV+ GS G +Y+ A ELG + E+GI LVYGG +GLMG ++ A+ + G IGV+P L EV + + E+ V+GMHERKA+M+ AD FI++PGG+GT EEL EV+ WAQ+GIH+KP+GL NV+G+++P + + ++ EGF E ++I S+ EL+ +++ Y Sbjct 35 FRRICVYCGSAKGRKASYQDAAVELGKELVERGIDLVYGGGSIGLMGLVSHAVHDGGRHVIGVIPKSLMPREVTGEPVGEVRAVSGMHERKAEMARFADAFIALPGGYGTLEELLEVITWAQLGIHKKPVGLLNVDGFYDPFLSFIDMAVSEGFIAEDARRIIISAPTARELVLKLEEY 213
(Объединено для читаемости.)
5. Матрица локального сходства с BLOSUM62 для первого задания
Писать скрипт на перле для этого мне показалось излишним, поскольку, раз уж табличные процессоры существуют, то пусть выполняют свою задачу — работу с таблицами. Для наглядности окрашивание выравнивания оставлено прежним:
Новая таблица добавлена в тот же файл, в котором была сделана первая.
6. Сравнение работы BLAST при разных параметрах
PAM30
:
100 GFISM-PGGFGTYEELFEVLCWAQIGIHQ----KPIGLYNVNGYFEPMM 143 G IS+ PGGFG ++ LF L Q G HQ I LY F P 246 GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAIVTSIVLYRLAYSFIPFI 293
PAM70
:
100 GFISM-PGGFGTYEELFEVLCWAQIGIHQ----KPIGLYNVNGYFEPMM 143 G IS+ PGGFG+++ LF L Q+G HQ I LY F P + 246 GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAIVTSIVLYRLAYSFIPFI 293
Выравнивания совпадают, но заметно, что у этих матриц разные критерии схожести аминокислотных остатков: PAM30 более «строгая». Так, пары метионин-изолейцин и серин-треонин в PAM70 считаются схожими, а в PAM30 нет. Дальше будем экспериментировать с PAM70. Значения штрафов по умолчанию — 10 за открытие гэпа, 1 за продолжение. Если поднять ставки — 11/1 — то выравнивание меняется, в основном за счет того, что становится короче с левого конца, где уже становится невыгодно открывать один-единственный гэп, и это перевешивает весьма заметную схожесть левой части «G.IS+»:
104 MPGGFGTYEELFEVLCWAQIGIHQ----KPIGLYNVNGYFEPMM 143 PGGFG+++ LF L Q+G HQ I LY F P + 251 VPGGFGSFDLLF-LLGMEQLGYHQEAIVTSIVLYRLAYSFIPFI 293
Теперь пусть штраф будет 9/2. Создавать цепочки гэпов по три и больше стало невыгодно, из-за чего отваливается вся правая часть (зато возвращается левая):
100 GFISM-PGGFGTYEELFEVLCWAQIGIHQKPI 130 G IS+ PGGFG+++ LF L Q+G HQ I 246 GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAI 276
В принципе, из всех перепробованных значений лучше всего себя проявляет 9/2 — ничего важного не остается за кадром и не добавляется явно лишних участков.
Теперь сравним работу матриц BLOSUM45, BLOSUM62 и BLOSUM80 на их стандартных параметрах (соответственно 15/2, 11/1 и 10/1):
100 GFISM-PGGFGTYEELFEVLCWAQIGIHQK----PIGLYNVNGYFEPMMKMVKYSIQEGFSNESHLKLIHSSSRPDELIE 174 G IS+ PGGFG+++ LF +L Q+G HQ+ I LY + F P + + ++ G E+ +K + ++ R IE 246 GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAIVTSIVLYRLAYSFIPFILGLFFA--AGDLTENTMKRLETNPRIAPAIE 322
100 GFISM-PGGFGTYEELFEVLCWAQIGIHQKPI 130 G IS+ PGGFG+++ LF +L Q+G HQ+ I 246 GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAI 276
100 GFISM-PGGFGTYEELFEVLCWAQIGIHQKPI 130 G IS+ PGGFG+++ LF +L Q+G HQ+ I 246 GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAI 276
Видно, что, как и в случае с PAM, «строгость» матриц возрастает (хотя критерии схожести, видимо, одинаковые). Теперь для BLOSUM62 заменим, например, стандартное 11/1 на 7/2:
100 GFISM-PGGFGTYEELFEVLCWAQIGIHQK----PIGLYNVNGYFEPMMKMVKYSIQEGFSNESHLKLIHSSSRPDELIE 174 G IS+ PGGFG+++ LF +L Q+G HQ+ I LY + F P + + ++ G E+ +K + ++ R IE 246 GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAIVTSIVLYRLAYSFIPFILGLFFA--AGDLTENTMKRLETNPRIAPAIE 322
Теперь у выравнивания вырос хвост, и оно стало в точности похоже на выравнивание, сделанное матрицей BLOSUM45.
7. Полное выравнивание
Поскольку BLAST выдал частичное выравнивание фрагмента, точное подобие которого уже было выровнено в первом задании, а длина второго белка аж 856 аминокислотных остатков против 191 у моего (и вся остальная часть их, видимо, не похожа друг с другом), и, кроме того, второе выданное частичное выравнивание было явной ошибкой, думаю, будет больше пользы, если я построю в GeneDoc полное выравнивание YVDD_BACSU с той явно гомологичной фосфорибогидролазой из риса. Результат — вот: