Учебный сайт Кирилла Цуканова → Второй семестр

Выравнивание последовательностей

1. Ручное выравнивание в GeneDoc

Выравнивание двух коротких последовательностей потребовало вставки всего двух гэпов в нужных местах. Результат. Идентичные остатки (56%):

Схожие остатки по группам (подсветка по включению кнопки Toggle similarity groups, 68%):

Если пересчитать процент сходства вручную по матрице BLOSUM62, получится 72% ­— всё то же, что и в предыдущем случае, но D и E по этой матрице считаются схожими (что логично).

2. Карта локального сходства

Для введения букв по одной в ячейку лучше воспользоваться не формулой, а sed. Это как-то проще. В любом случае, получится вот:

Здесь темно-зеленым покрашены совпадающие остатки, светло-зеленым — схожие по свойствам, желтым — дополняющие выравнивание, но не похожие. Пустая строка соответствует гэпу в первой последовательности, пустой столбец — во второй. «Лесенка» соответствует совпадающим подряд фрагментам.

Построенное таким образом выравнивание совпадает с тем, которое было получено в первом задании.

3. Выравнивание с bl2seq

Вот что сказал BLAST:

Score = 83.8 bits (190),  Expect = 6e-25
Identities = 24/24 (100%), Positives = 24/24 (100%), Gaps = 0/24 (0%)

Query  1    ISMPGGFGTYEELFEVLCWAQIGI  24
            ISMPGGFGTYEELFEVLCWAQIGI
Sbjct  102  ISMPGGFGTYEELFEVLCWAQIGI  125

Отсюда видно, что фрагмент взят со 102-го по 125-й остаток.

Кстати, любопытства ради, попросим bl2seq построить выравнивание двух последовательностей из первого задания:

Query  3   MPGGFGTYEELFEVLCWAQIG  23
           +PGGFG+++ LF VL   QIG
Sbjct  4   VPGGFGSFDLLF-VLGMEQIG  23

Как видно, оно практически полностью совпало с построенным вручную (единственное отличие: здесь метионин-3 поставлен в соответствие валину-4, а не лейцину-3).

4. Выравнивание с гомологом

Итак, в качестве гомолога к моему многострадальному YVDD_BACSU (напомню: функция точно неизвестна, ID YVDD присвоен по положению в цепи ДНК, метаболических путей нет, статей нет, полезных ископаемых нет) прилагается MPRF_BACSU. Оба они из сенной палочки. Ну что ж, выровняем (со всеми параметрами по умолчанию):

Score = 30.8 bits (68),  Expect = 3e-05, Method: Composition-based stats.
Identities = 16/32 (50%), Positives = 23/32 (72%), Gaps = 2/32 (6%)

Query  100  GFISM-PGGFGTYEELFEVLCWAQIGIHQKPI  130
            G IS+ PGGFG+++ LF +L   Q+G HQ+ I
Sbjct  246  GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAI  276

Score = 16.2 bits (30),  Expect = 1.6, Method: Composition-based stats.
Identities = 6/12 (50%), Positives = 8/12 (67%), Gaps = 0/12 (0%)

Query  150  IQEGFSNESHLK  161
            + E F NE+H K
Sbjct  595  VLEEFLNEAHQK  606

Для первого, основного совпадения процент идентичности: 50%, процент сходства: 72%, колонок с гэпами: 2 (6%), подряд гэпы не встречаются. Координаты выровненных участков: YVDD_BACSU — фрагмент 100..130, MPRF_BACSU — 246..276. Собственно, это та же область, которая фигурировала в первом задании с короткими последовательностями. Второе частичное выравнивание скорее создает шум, чем реально полезно, поэтому его мы рассматривать не будем. Карта локального сходства:

Cходство этого конкретного участка в принципе заметно, но что-то я все равно не очень впечатлен. Я ставлю под сомнение тот факт, что эти два белка гомологичны. Тем более что MPRF_BACSU относится к трансферазам, а YVDD_BACSU — к семейству LOG, которое входит в класс гидролаз. Возможно, это некоторое сходство обусловлено наличием субструктур, выполняющих какие-то похожие функции. Большое же сходство — это, например, вот такое: возьмем наш белок YVDD_BACSU (напоминаю, предполагаемая цитокинин-фосфорибогидролаза) и для сравнения самую настоящую фосфорибогидролазу из риса, LOG_ORYSJ. Вот это сходство гомологичных белков, да:

Score =  157 bits (441),  Expect = 1e-56, Method: Compositional matrix adjust.
Identities = 79/179 (44%), Positives = 119/179 (66%), Gaps = 0/179 (0%)
Query  1    MKTICVFAGSNPGGNEAYKRKAAELGVYMAEQGIGLVYGGSRVGLMGTIADAIMENGGTAIGVMPSGLFSGEVVHQNLTELIEVNGMHERKAKMSELADGFISMPGGFGTYEELFEVLCWAQIGIHQKPIGLYNVNGYFEPMMKMVKYSIQEGFSNESHLKLIHSSSRPDELIEQMQNY 179
             + ICV+ GS  G   +Y+  A ELG  + E+GI LVYGG  +GLMG ++ A+ + G   IGV+P  L   EV  + + E+  V+GMHERKA+M+  AD FI++PGG+GT EEL EV+ WAQ+GIH+KP+GL NV+G+++P +  +  ++ EGF  E   ++I S+    EL+ +++ Y
Sbjct  35   FRRICVYCGSAKGRKASYQDAAVELGKELVERGIDLVYGGGSIGLMGLVSHAVHDGGRHVIGVIPKSLMPREVTGEPVGEVRAVSGMHERKAEMARFADAFIALPGGYGTLEELLEVITWAQLGIHKKPVGLLNVDGFYDPFLSFIDMAVSEGFIAEDARRIIISAPTARELVLKLEEY 213

(Объединено для читаемости.)

5. Матрица локального сходства с BLOSUM62 для первого задания

Писать скрипт на перле для этого мне показалось излишним, поскольку, раз уж табличные процессоры существуют, то пусть выполняют свою задачу — работу с таблицами. Для наглядности окрашивание выравнивания оставлено прежним:

Новая таблица добавлена в тот же файл, в котором была сделана первая.

6. Сравнение работы BLAST при разных параметрах

PAM30:

100  GFISM-PGGFGTYEELFEVLCWAQIGIHQ----KPIGLYNVNGYFEPMM  143
     G IS+ PGGFG ++ LF  L   Q G HQ      I LY     F P  
246  GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAIVTSIVLYRLAYSFIPFI  293

PAM70:

100  GFISM-PGGFGTYEELFEVLCWAQIGIHQ----KPIGLYNVNGYFEPMM  143
     G IS+ PGGFG+++ LF  L   Q+G HQ      I LY     F P +
246  GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAIVTSIVLYRLAYSFIPFI  293

Выравнивания совпадают, но заметно, что у этих матриц разные критерии схожести аминокислотных остатков: PAM30 более «строгая». Так, пары метионин-изолейцин и серин-треонин в PAM70 считаются схожими, а в PAM30 нет. Дальше будем экспериментировать с PAM70. Значения штрафов по умолчанию — 10 за открытие гэпа, 1 за продолжение. Если поднять ставки — 11/1 — то выравнивание меняется, в основном за счет того, что становится короче с левого конца, где уже становится невыгодно открывать один-единственный гэп, и это перевешивает весьма заметную схожесть левой части «G.IS+»:

     104  MPGGFGTYEELFEVLCWAQIGIHQ----KPIGLYNVNGYFEPMM  143
           PGGFG+++ LF  L   Q+G HQ      I LY     F P +
     251  VPGGFGSFDLLF-LLGMEQLGYHQEAIVTSIVLYRLAYSFIPFI  293

Теперь пусть штраф будет 9/2. Создавать цепочки гэпов по три и больше стало невыгодно, из-за чего отваливается вся правая часть (зато возвращается левая):

100  GFISM-PGGFGTYEELFEVLCWAQIGIHQKPI  130
     G IS+ PGGFG+++ LF  L   Q+G HQ  I
246  GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAI  276

В принципе, из всех перепробованных значений лучше всего себя проявляет 9/2 — ничего важного не остается за кадром и не добавляется явно лишних участков.

Теперь сравним работу матриц BLOSUM45, BLOSUM62 и BLOSUM80 на их стандартных параметрах (соответственно 15/2, 11/1 и 10/1):

100  GFISM-PGGFGTYEELFEVLCWAQIGIHQK----PIGLYNVNGYFEPMMKMVKYSIQEGFSNESHLKLIHSSSRPDELIE  174
     G IS+ PGGFG+++ LF +L   Q+G HQ+     I LY +   F P +  + ++   G   E+ +K + ++ R    IE
246  GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAIVTSIVLYRLAYSFIPFILGLFFA--AGDLTENTMKRLETNPRIAPAIE  322
100  GFISM-PGGFGTYEELFEVLCWAQIGIHQKPI  130
     G IS+ PGGFG+++ LF +L   Q+G HQ+ I
246  GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAI  276
100  GFISM-PGGFGTYEELFEVLCWAQIGIHQKPI  130
     G IS+ PGGFG+++ LF +L   Q+G HQ+ I
246  GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAI  276

Видно, что, как и в случае с PAM, «строгость» матриц возрастает (хотя критерии схожести, видимо, одинаковые). Теперь для BLOSUM62 заменим, например, стандартное 11/1 на 7/2:

100  GFISM-PGGFGTYEELFEVLCWAQIGIHQK----PIGLYNVNGYFEPMMKMVKYSIQEGFSNESHLKLIHSSSRPDELIE  174
     G IS+ PGGFG+++ LF +L   Q+G HQ+     I LY +   F P +  + ++   G   E+ +K + ++ R    IE
246  GMISLVPGGFGSFDLLF-LLGMEQLGYHQEAIVTSIVLYRLAYSFIPFILGLFFA--AGDLTENTMKRLETNPRIAPAIE  322 

Теперь у выравнивания вырос хвост, и оно стало в точности похоже на выравнивание, сделанное матрицей BLOSUM45.

7. Полное выравнивание

Поскольку BLAST выдал частичное выравнивание фрагмента, точное подобие которого уже было выровнено в первом задании, а длина второго белка аж 856 аминокислотных остатков против 191 у моего (и вся остальная часть их, видимо, не похожа друг с другом), и, кроме того, второе выданное частичное выравнивание было явной ошибкой, думаю, будет больше пользы, если я построю в GeneDoc полное выравнивание YVDD_BACSU с той явно гомологичной фосфорибогидролазой из риса. Результат — вот: