Учебный сайт Кирилла Цуканова → Второй семестр

BLAST

1. Поиск гомологов

Лучшая находка:SwissProtPDBnr
AccessionO06986.11T35_ANP_391344.1
Все три записи соответствуют исходному белку.
E-value9e-1394e-1293e-137
Score392365392
Max ident100%94%100%
Хороших гомологов с E-value < 1e-10:2451801
Худшая из удовлетворительных (последняя с E-value < 1):
Номер находки в списке описаний25142645 (Я уже думал, браузер зависнет.)
AccessionO29139.12PGF_AZP_08963945.1
E-value0.930.970.93
Score32.730.037.4
Процент идентичности26%28%29%
Процент сходства41%45%45%
Длина выравнивания137134111
Координаты выравнивания (запрос/находка)15–151/15–1477–115/202–33521–130/18–118
Число гэпов42511

Сам запрошенный белок нашелся в поиске по SwissProt и PDB. При поиске в «nr» также был выдан кластер, куда вошла запись из SwissProt. Число находок явных гомологов по разным базам резко различается: в SwissProt — 24, поскольку туда попадают только отобранные и проверенные вручную записи; в PDB — всего 5, потому что структур белков еще меньше; и среди всех — аж 1801, потому что здесь в кучу свалено всё, включая фрагменты и гипотетические белки.

Можно видеть, что в банке PDB параметр Max ident равен 94%. Это происходит потому, что в записи PDB находится не весь белок, а только та часть, которая была определена с помощью рентгеноструктурного анализа. Когда хвосты белков не попадают в такие записи — обычное дело, и для этого отведен целый раздел в PDB-записи (Missing residues).

Если искать с параметрами по умолчанию, то результатов из SwissProt — 41, E-value последнего 8.8 (лимитируется по E-value, по умолчанию порог 10); PDB — 26 результатов, E-value последнего 7.3, также лимитируется по E-value; nr — 100 результатов, E-value последнего 6e-62 (лимитируется по числу записей, по умолчанию порог 100).

2. Поиск по таксонам

К счастью, мой белок оказался кроссплатформенным, и далеко мне ходить не пришлось — гомологи нашлись уже среди эукариот. Например, это LOG_ORYSJ из азиатского риса, также среди организмов фигурируют, например, дрожжи и арабидопсис (резуховидка Таля). Если же переключиться на nr, то там найдутся тополь, селагинелла, клещевина, коротконожка, кукуруза и множество других растений. Если выкинуть из поиска высшие растения, то замелькают организмы, знакомые из курса микологии и альгологии: зеленые водоросли — хламидомонада, хлорелла, микромонас, вольвокс и прочие, самые разнообразные грибы и слизевики; исключая их, увидим простейших и даже животных: удивительно, но старый добрый трихоплакс и актиния Nematostella vectensis тоже несут в себе ген, которому уже несколько миллиардов лет. Под конец списка (но все еще несомненно достоверно, e-value = 6e–38) встречается даже губка Amphimedon queenslandica.

Выравнивание с LOG_ORYSJ:

Score =  174 bits (441),  Expect = 2e-58, Method: Compositional matrix adjust.
Identities = 79/179 (44%), Positives = 119/179 (66%), Gaps = 0/179 (0%)
Query  1    MKTICVFAGSNPGGNEAYKRKAAELGVYMAEQGIGLVYGGSRVGLMGTIADAIMENGGTA  60
             + ICV+ GS  G   +Y+  A ELG  + E+GI LVYGG  +GLMG ++ A+ + G   
Sbjct  35   FRRICVYCGSAKGRKASYQDAAVELGKELVERGIDLVYGGGSIGLMGLVSHAVHDGGRHV  94

Query  61   IGVMPSGLFSGEVVHQNLTELIEVNGMHERKAKMSELADGFISMPGGFGTYEELFEVLCW  120
            IGV+P  L   EV  + + E+  V+GMHERKA+M+  AD FI++PGG+GT EEL EV+ W
Sbjct  95   IGVIPKSLMPREVTGEPVGEVRAVSGMHERKAEMARFADAFIALPGGYGTLEELLEVITW  154

Query  121  AQIGIHQKPIGLYNVNGYFEPMMKMVKYSIQEGFSNESHLKLIHSSSRPDELIEQMQNY  179
            AQ+GIH+KP+GL NV+G+++P +  +  ++ EGF  E   ++I S+    EL+ +++ Y
Sbjct  155  AQLGIHKKPVGLLNVDGFYDPFLSFIDMAVSEGFIAEDARRIIISAPTARELVLKLEEY  213

Описание находки: номер находки в списке описаний — 9; AC: Q5ZC82.1; E-value: 2e-58; Score: 174; процент идентичности: 44%; процент сходства: 66%; длина выравнивания: 179; координаты выравнивания (запрос/находка): 1—179/35—213; число гэпов: 0.

3. Сравнение выравниваний

Параметры, которые по умолчанию использует BLAST — матрица BLOSUM62, штраф за открытие гэпа 11, штраф за продление 1. Выравнивание, построенное BLAST — выше. Оптимальное частичное выравнивание, построенное с помощью water с такими же параметрами:

# Identity:      79/178 (44.4%)
# Similarity:   119/178 (66.9%)
# Gaps:           0/178 ( 0.0%)
# Score: 434.0
YVDD_BACSU         2 KTICVFAGSNPGGNEAYKRKAAELGVYMAEQGIGLVYGGSRVGLMGTIAD     51
                     :.|||:.||..|...:|:..|.|||..:.|:||.|||||..:||||.::.
LOG_ORYSJ         36 RRICVYCGSAKGRKASYQDAAVELGKELVERGIDLVYGGGSIGLMGLVSH     85

YVDD_BACSU        52 AIMENGGTAIGVMPSGLFSGEVVHQNLTELIEVNGMHERKAKMSELADGF    101
                     |:.:.|...|||:|..|...||..:.:.|:..|:|||||||:|:..||.|
LOG_ORYSJ         86 AVHDGGRHVIGVIPKSLMPREVTGEPVGEVRAVSGMHERKAEMARFADAF    135

YVDD_BACSU       102 ISMPGGFGTYEELFEVLCWAQIGIHQKPIGLYNVNGYFEPMMKMVKYSIQ    151
                     |::|||:||.|||.||:.|||:|||:||:||.||:|:::|.:..:..::.
LOG_ORYSJ        136 IALPGGYGTLEELLEVITWAQLGIHKKPVGLLNVDGFYDPFLSFIDMAVS    185

YVDD_BACSU       152 EGFSNESHLKLIHSSSRPDELIEQMQNY    179
                     |||..|...::|.|:....||:.:::.|
LOG_ORYSJ        186 EGFIAEDARRIIISAPTARELVLKLEEY    213

Оптимальное полное выравнивание — needle:

# Length: 243
# Identity:      81/243 (33.3%)
# Similarity:   123/243 (50.6%)
# Gaps:          53/243 (21.8%)
# Score: 423.0
YVDD_BACSU         1 ----------------------------------MKTICVFAGSNPGGNE     16
                                                       .:.|||:.||..|...
LOG_ORYSJ          1 MAMEAAAERSAGAGAAATAAPESGGGGAGERRSRFRRICVYCGSAKGRKA     50

YVDD_BACSU        17 AYKRKAAELGVYMAEQGIGLVYGGSRVGLMGTIADAIMENGGTAIGVMPS     66
                     :|:..|.|||..:.|:||.|||||..:||||.::.|:.:.|...|||:|.
LOG_ORYSJ         51 SYQDAAVELGKELVERGIDLVYGGGSIGLMGLVSHAVHDGGRHVIGVIPK    100

YVDD_BACSU        67 GLFSGEVVHQNLTELIEVNGMHERKAKMSELADGFISMPGGFGTYEELFE    116
                     .|...||..:.:.|:..|:|||||||:|:..||.||::|||:||.|||.|
LOG_ORYSJ        101 SLMPREVTGEPVGEVRAVSGMHERKAEMARFADAFIALPGGYGTLEELLE    150

YVDD_BACSU       117 VLCWAQIGIHQKPIGLYNVNGYFEPMMKMVKYSIQEGFSNESHLKLIHSS    166
                     |:.|||:|||:||:||.||:|:::|.:..:..::.|||..|...::|.|:
LOG_ORYSJ        151 VITWAQLGIHKKPVGLLNVDGFYDPFLSFIDMAVSEGFIAEDARRIIISA    200

YVDD_BACSU       167 SRPDELIEQMQNY--SYPILEKKWTEI----------------    191
                     ....||:.:::.|  .|.: ...|.:.                
LOG_ORYSJ        201 PTARELVLKLEEYVPEYEV-GLVWDDQMPHSFAPDLETRITSS    242

Различия между выравниваниями весьма тривиальны. Участок 2—179/36—213 совпадает полностью, без гэпов. Выравнивание water представляет собой только этот фрагмент; его вес — 434, процент идентичности 44.9, процент сходства 66.9. Это самое оптимальное частичное выравнивание. Выравнивание BLAST очень похоже на предыдущее, но включает дополнительно один фрагмент слева (1M—35F), его вес 441. Я совершенно не представляю, почему этот вес больше на 7, притом что в BLOSUM62 у пары M/F стоит 0. (А, я понял, это же matrix adjustment.) Процент идентичности и сходства немного упали — 44.1 и 66.5 — из-за добавления одного остатка. Вес полного выравнивания — 423, процент идентичности 33.3, процент сходства 50.6. В части 1—179/35—213 выравнивание совпадает с BLAST, до 35-й позиции у риса «хвост», а в конце еще небольшой слегка совпадающий участок и опять хвост.

4. Описание программ

Отдельной страницы с описаниями программ у меня нет, поскольку пересказ манов мне видится в известной мере бессмысленным. Так же и здесь — программы няшны, пересказывать их страницы из EMBOSS Wiki смысла нет. Кратким описанием можно ограничиться:

Интереса ради сравним при помощи утилиты time скорость работы трех программ для построения частичных выравниваний с одинаковыми параметрами — needle, stretcher и моей align.pl: needle — 0.018 с; stretcher — 0.040 с (и правда что, почти ровно вдвое!); align.pl — 0.108 с. (^__^)" Ну простите, неоптимально, да.

5. Параметры BLAST

На явно гомологичные белки изменения параметров особенно не влияют: гомология — она гомология и есть. Но если, например, изменить штрафы на 7/2, то вылезет еще один весьма интересный белок, Y1126_ARCFU, о котором — в следующем упражнении. До этого он не вылезал, потому что открывать гэпы было дороже, а поскольку отсечение равно единице, то каких-то долей для того, чтобы он попал в выдачу, как раз и не хватало.

6. Почти 1

Вот выравнивание с Y1126_ARCFU:

Score = 32.5 bits (79),  Expect = 0.31, Method: Compositional matrix adjust.
Identities = 36/144 (25%), Positives = 61/144 (42%), Gaps = 7/144 (5%)

Query  9    GSNPGGNEAYKRKAAELGVYMAEQGIGLVYGGSRVGLMGTIADAIMENGGTAIGVMPSGL  68
            G+     E Y R A  +G  +AE+G  L+ GG   G+M   A      GG  + ++P   
Sbjct  10   GAGECDEETY-RIAYRVGELIAEKGHVLINGGLG-GVMEASAKGAKSKGGLVVAILPR--  65

Query  69   FSGEVVHQNLTELIEVNGMHERKAKMSELADGFISMPGGFGTYEELFEVLCWA-QIGIHQ  127
               ++ +      I  +  H R   +   +D  IS+ GG+GT  E+   L    ++   +
Sbjct  66   -KKDLCNDFADIRIATDMGHARNVIIVHSSDALISVGGGYGTISEIAIALKEGKRVASLK  124

Query  128  KPIGLYNVNGYFEPMMKMVKYSIQ  151
             P+ +  +   FE   + V Y I 
Sbjct  125  PPVVIEGMR-VFETPEEAVNYCIS  147

(На то, что нужно было взять ближайший белок, для которого e-value больше единицы, я обратил внимание уже потом, и взял ближайший, для которого меньше. Но этот белок тоже весьма неоднозначный, так что исследуем-ка и его.) Для начала посмотрим, что это за ARCFU. Это — архея из рода Archaeoglobus. Про них достаточно сказать, что их любимая температура — 83 градуса по Цельсию. Так что я бы особенно не удивился, если бы их геном претерпел очень сильные изменения и исходный белок LOG нашего любимого последнего универсального общего предка превратился в вот эту штуку сверху. Что еще можно сделать? В голову приходит только одна мысль: попытаться воспользоваться каким-нибудь сервисом предсказания трехмерной структуры белков и посмотреть, будет ли структура похожа. Если будет, то при постоянной длине и практически полном отсутствии гэпов можно считать, что белки — всё-таки гомологи. Как-то вечером я зарегистрировался на I-TASSER и загрузил Y1126_ARCFU на обработку, а с утра результаты уже были готовы. I-TASSER рассчитал одну-единственную модель, вот такую (слева — YVDD_BACSU, справа — предсказанная модель Y1126_ARCFU):

В разные цвета покрашены соответствующие друг другу участки выравнивания. Видны два участка гэпов в YVDD_BACSU. Структуры очень сильно похожи, поэтому белки можно считать гомологами.

7. Интерфейсы BLAST

Интерфейс на сайте EBI порадовал меня тем, что я так и не разобрался, даже после чтения мануала, как задать в качестве поискового запроса идентификатор последовательности в SwissProt. Я отказываюсь верить, что такое может быть, возможно, всему виной поздняя ночь, которой я это пишу, но я правда не знаю, как это сделать. А вот из плюсов — можно выбирать каждую базу данных по отдельности. Это очень удобно, в интерфейсе NCBI мне этого часто очень не хватает. Параметры настройки алгоритма такие же, как на сайте NCBI. А еще выравнивания он показывает сразу после информации о белках, это тоже очень неплохо. Зато вот фильтрации по организмам я найти не смог.

Интерфейс Expasy прямо какой-то игрушечный с виду, и главный его недостаток в том, что я пробовал запросить его о чем-нибудь пять раз и ни разу я не смог дождаться загрузки. Видимо, не судьба. Из минусов: фильтр по организмам можно отметить только очень грубый, из плюсов: есть готовый набор протеомов бактерий.

Вообще, мне больше всего нравится интерфейс на сайте NCBI. Он красивый, удобный, отлично настраиваемый, там просто круто реализован фильтр по группам организмов, и, что немаловажно, кнопка BLAST очень большая и внушительная — когда на нее нажимаешь, то ощущаешь себя так, как будто запускаешь какой-то внушительный и сложный процесс ^____^