1. Поиск гомологов
Лучшая находка: | SwissProt | PDB | nr |
Accession | O06986.1 | 1T35_A | NP_391344.1 |
Все три записи соответствуют исходному белку. | |||
E-value | 9e-139 | 4e-129 | 3e-137 |
Score | 392 | 365 | 392 |
Max ident | 100% | 94% | 100% |
Хороших гомологов с E-value < 1e-10: | 24 | 5 | 1801 |
Худшая из удовлетворительных (последняя с E-value < 1): | |||
Номер находки в списке описаний | 25 | 14 | 2645 (Я уже думал, браузер зависнет.) |
Accession | O29139.1 | 2PGF_A | ZP_08963945.1 |
E-value | 0.93 | 0.97 | 0.93 |
Score | 32.7 | 30.0 | 37.4 |
Процент идентичности | 26% | 28% | 29% |
Процент сходства | 41% | 45% | 45% |
Длина выравнивания | 137 | 134 | 111 |
Координаты выравнивания (запрос/находка) | 15–151/15–147 | 7–115/202–335 | 21–130/18–118 |
Число гэпов | 4 | 25 | 11 |
Сам запрошенный белок нашелся в поиске по SwissProt и PDB. При поиске в «nr» также был выдан кластер, куда вошла запись из SwissProt. Число находок явных гомологов по разным базам резко различается: в SwissProt — 24, поскольку туда попадают только отобранные и проверенные вручную записи; в PDB — всего 5, потому что структур белков еще меньше; и среди всех — аж 1801, потому что здесь в кучу свалено всё, включая фрагменты и гипотетические белки.
Можно видеть, что в банке PDB параметр Max ident равен 94%. Это происходит потому, что в записи PDB находится не весь белок, а только та часть, которая была определена с помощью рентгеноструктурного анализа. Когда хвосты белков не попадают в такие записи — обычное дело, и для этого отведен целый раздел в PDB-записи (Missing residues).
Если искать с параметрами по умолчанию, то результатов из SwissProt — 41, E-value последнего 8.8 (лимитируется по E-value, по умолчанию порог 10); PDB — 26 результатов, E-value последнего 7.3, также лимитируется по E-value; nr — 100 результатов, E-value последнего 6e-62 (лимитируется по числу записей, по умолчанию порог 100).
2. Поиск по таксонам
К счастью, мой белок оказался кроссплатформенным, и далеко мне ходить не пришлось — гомологи нашлись уже среди эукариот. Например, это LOG_ORYSJ
из азиатского риса, также среди организмов фигурируют, например, дрожжи и арабидопсис (резуховидка Таля). Если же переключиться на nr, то там найдутся тополь, селагинелла, клещевина, коротконожка, кукуруза и множество других растений. Если выкинуть из поиска высшие растения, то замелькают организмы, знакомые из курса микологии и альгологии: зеленые водоросли — хламидомонада, хлорелла, микромонас, вольвокс и прочие, самые разнообразные грибы и слизевики; исключая их, увидим простейших и даже животных: удивительно, но старый добрый трихоплакс и актиния Nematostella vectensis тоже несут в себе ген, которому уже несколько миллиардов лет. Под конец списка (но все еще несомненно достоверно, e-value = 6e–38) встречается даже губка Amphimedon queenslandica.
Выравнивание с LOG_ORYSJ
:
Score = 174 bits (441), Expect = 2e-58, Method: Compositional matrix adjust. Identities = 79/179 (44%), Positives = 119/179 (66%), Gaps = 0/179 (0%) Query 1 MKTICVFAGSNPGGNEAYKRKAAELGVYMAEQGIGLVYGGSRVGLMGTIADAIMENGGTA 60 + ICV+ GS G +Y+ A ELG + E+GI LVYGG +GLMG ++ A+ + G Sbjct 35 FRRICVYCGSAKGRKASYQDAAVELGKELVERGIDLVYGGGSIGLMGLVSHAVHDGGRHV 94 Query 61 IGVMPSGLFSGEVVHQNLTELIEVNGMHERKAKMSELADGFISMPGGFGTYEELFEVLCW 120 IGV+P L EV + + E+ V+GMHERKA+M+ AD FI++PGG+GT EEL EV+ W Sbjct 95 IGVIPKSLMPREVTGEPVGEVRAVSGMHERKAEMARFADAFIALPGGYGTLEELLEVITW 154 Query 121 AQIGIHQKPIGLYNVNGYFEPMMKMVKYSIQEGFSNESHLKLIHSSSRPDELIEQMQNY 179 AQ+GIH+KP+GL NV+G+++P + + ++ EGF E ++I S+ EL+ +++ Y Sbjct 155 AQLGIHKKPVGLLNVDGFYDPFLSFIDMAVSEGFIAEDARRIIISAPTARELVLKLEEY 213
Описание находки: номер находки в списке описаний — 9; AC: Q5ZC82.1; E-value: 2e-58; Score: 174; процент идентичности: 44%; процент сходства: 66%; длина выравнивания: 179; координаты выравнивания (запрос/находка): 1—179/35—213; число гэпов: 0.
3. Сравнение выравниваний
Параметры, которые по умолчанию использует BLAST — матрица BLOSUM62, штраф за открытие гэпа 11, штраф за продление 1. Выравнивание, построенное BLAST — выше. Оптимальное частичное выравнивание, построенное с помощью water
с такими же параметрами:
# Identity: 79/178 (44.4%) # Similarity: 119/178 (66.9%) # Gaps: 0/178 ( 0.0%) # Score: 434.0 YVDD_BACSU 2 KTICVFAGSNPGGNEAYKRKAAELGVYMAEQGIGLVYGGSRVGLMGTIAD 51 :.|||:.||..|...:|:..|.|||..:.|:||.|||||..:||||.::. LOG_ORYSJ 36 RRICVYCGSAKGRKASYQDAAVELGKELVERGIDLVYGGGSIGLMGLVSH 85 YVDD_BACSU 52 AIMENGGTAIGVMPSGLFSGEVVHQNLTELIEVNGMHERKAKMSELADGF 101 |:.:.|...|||:|..|...||..:.:.|:..|:|||||||:|:..||.| LOG_ORYSJ 86 AVHDGGRHVIGVIPKSLMPREVTGEPVGEVRAVSGMHERKAEMARFADAF 135 YVDD_BACSU 102 ISMPGGFGTYEELFEVLCWAQIGIHQKPIGLYNVNGYFEPMMKMVKYSIQ 151 |::|||:||.|||.||:.|||:|||:||:||.||:|:::|.:..:..::. LOG_ORYSJ 136 IALPGGYGTLEELLEVITWAQLGIHKKPVGLLNVDGFYDPFLSFIDMAVS 185 YVDD_BACSU 152 EGFSNESHLKLIHSSSRPDELIEQMQNY 179 |||..|...::|.|:....||:.:::.| LOG_ORYSJ 186 EGFIAEDARRIIISAPTARELVLKLEEY 213
Оптимальное полное выравнивание — needle
:
# Length: 243 # Identity: 81/243 (33.3%) # Similarity: 123/243 (50.6%) # Gaps: 53/243 (21.8%) # Score: 423.0 YVDD_BACSU 1 ----------------------------------MKTICVFAGSNPGGNE 16 .:.|||:.||..|... LOG_ORYSJ 1 MAMEAAAERSAGAGAAATAAPESGGGGAGERRSRFRRICVYCGSAKGRKA 50 YVDD_BACSU 17 AYKRKAAELGVYMAEQGIGLVYGGSRVGLMGTIADAIMENGGTAIGVMPS 66 :|:..|.|||..:.|:||.|||||..:||||.::.|:.:.|...|||:|. LOG_ORYSJ 51 SYQDAAVELGKELVERGIDLVYGGGSIGLMGLVSHAVHDGGRHVIGVIPK 100 YVDD_BACSU 67 GLFSGEVVHQNLTELIEVNGMHERKAKMSELADGFISMPGGFGTYEELFE 116 .|...||..:.:.|:..|:|||||||:|:..||.||::|||:||.|||.| LOG_ORYSJ 101 SLMPREVTGEPVGEVRAVSGMHERKAEMARFADAFIALPGGYGTLEELLE 150 YVDD_BACSU 117 VLCWAQIGIHQKPIGLYNVNGYFEPMMKMVKYSIQEGFSNESHLKLIHSS 166 |:.|||:|||:||:||.||:|:::|.:..:..::.|||..|...::|.|: LOG_ORYSJ 151 VITWAQLGIHKKPVGLLNVDGFYDPFLSFIDMAVSEGFIAEDARRIIISA 200 YVDD_BACSU 167 SRPDELIEQMQNY--SYPILEKKWTEI---------------- 191 ....||:.:::.| .|.: ...|.:. LOG_ORYSJ 201 PTARELVLKLEEYVPEYEV-GLVWDDQMPHSFAPDLETRITSS 242
Различия между выравниваниями весьма тривиальны. Участок 2—179/36—213 совпадает полностью, без гэпов. Выравнивание water
представляет собой только этот фрагмент; его вес — 434, процент идентичности 44.9, процент сходства 66.9. Это самое оптимальное частичное выравнивание. Выравнивание BLAST очень похоже на предыдущее, но включает дополнительно один фрагмент слева (1M—35F), его вес 441. Я совершенно не представляю, почему этот вес больше на 7, притом что в BLOSUM62 у пары M/F стоит 0. (А, я понял, это же matrix adjustment.) Процент идентичности и сходства немного упали — 44.1 и 66.5 — из-за добавления одного остатка. Вес полного выравнивания — 423, процент идентичности 33.3, процент сходства 50.6. В части 1—179/35—213 выравнивание совпадает с BLAST, до 35-й позиции у риса «хвост», а в конце еще небольшой слегка совпадающий участок и опять хвост.
4. Описание программ
Отдельной страницы с описаниями программ у меня нет, поскольку пересказ манов мне видится в известной мере бессмысленным. Так же и здесь — программы няшны, пересказывать их страницы из EMBOSS Wiki смысла нет. Кратким описанием можно ограничиться:
seqret
умеет извлекать последовательности из разнообразных баз данных;matcher
иwater
вычисляют локальные выравнивания последовательностей: по алгоритму Ватермана–Эггерта и Смита–Ватермана, соответственно;needle
иstretcher
вычисляют полные выравнивания — первая по классическому алгоритму Нидлмана-Вунша, сложность которого по памяти пропорциональна произведению длин последовательностей; вторая использует отсечение Майерса-Миллера, сокращая сложность по памяти до O(n), где n — длина меньшей из последовательностей, зато увеличивает затраты времени приблизительно в два раза (согласно описанию).
Интереса ради сравним при помощи утилиты time
скорость работы трех программ для построения частичных выравниваний с одинаковыми параметрами — needle
, stretcher
и моей align.pl
: needle — 0.018 с; stretcher — 0.040 с (и правда что, почти ровно вдвое!); align.pl — 0.108 с. (^__^)" Ну простите, неоптимально, да.
5. Параметры BLAST
На явно гомологичные белки изменения параметров особенно не влияют: гомология — она гомология и есть. Но если, например, изменить штрафы на 7/2, то вылезет еще один весьма интересный белок, Y1126_ARCFU, о котором — в следующем упражнении. До этого он не вылезал, потому что открывать гэпы было дороже, а поскольку отсечение равно единице, то каких-то долей для того, чтобы он попал в выдачу, как раз и не хватало.
6. Почти 1
Вот выравнивание с Y1126_ARCFU:
Score = 32.5 bits (79), Expect = 0.31, Method: Compositional matrix adjust. Identities = 36/144 (25%), Positives = 61/144 (42%), Gaps = 7/144 (5%) Query 9 GSNPGGNEAYKRKAAELGVYMAEQGIGLVYGGSRVGLMGTIADAIMENGGTAIGVMPSGL 68 G+ E Y R A +G +AE+G L+ GG G+M A GG + ++P Sbjct 10 GAGECDEETY-RIAYRVGELIAEKGHVLINGGLG-GVMEASAKGAKSKGGLVVAILPR-- 65 Query 69 FSGEVVHQNLTELIEVNGMHERKAKMSELADGFISMPGGFGTYEELFEVLCWA-QIGIHQ 127 ++ + I + H R + +D IS+ GG+GT E+ L ++ + Sbjct 66 -KKDLCNDFADIRIATDMGHARNVIIVHSSDALISVGGGYGTISEIAIALKEGKRVASLK 124 Query 128 KPIGLYNVNGYFEPMMKMVKYSIQ 151 P+ + + FE + V Y I Sbjct 125 PPVVIEGMR-VFETPEEAVNYCIS 147
(На то, что нужно было взять ближайший белок, для которого e-value больше единицы, я обратил внимание уже потом, и взял ближайший, для которого меньше. Но этот белок тоже весьма неоднозначный, так что исследуем-ка и его.) Для начала посмотрим, что это за ARCFU. Это — архея из рода Archaeoglobus. Про них достаточно сказать, что их любимая температура — 83 градуса по Цельсию. Так что я бы особенно не удивился, если бы их геном претерпел очень сильные изменения и исходный белок LOG нашего любимого последнего универсального общего предка превратился в вот эту штуку сверху. Что еще можно сделать? В голову приходит только одна мысль: попытаться воспользоваться каким-нибудь сервисом предсказания трехмерной структуры белков и посмотреть, будет ли структура похожа. Если будет, то при постоянной длине и практически полном отсутствии гэпов можно считать, что белки — всё-таки гомологи. Как-то вечером я зарегистрировался на I-TASSER и загрузил Y1126_ARCFU на обработку, а с утра результаты уже были готовы. I-TASSER рассчитал одну-единственную модель, вот такую (слева — YVDD_BACSU, справа — предсказанная модель Y1126_ARCFU):
В разные цвета покрашены соответствующие друг другу участки выравнивания. Видны два участка гэпов в YVDD_BACSU. Структуры очень сильно похожи, поэтому белки можно считать гомологами.
7. Интерфейсы BLAST
Интерфейс на сайте EBI порадовал меня тем, что я так и не разобрался, даже после чтения мануала, как задать в качестве поискового запроса идентификатор последовательности в SwissProt. Я отказываюсь верить, что такое может быть, возможно, всему виной поздняя ночь, которой я это пишу, но я правда не знаю, как это сделать. А вот из плюсов — можно выбирать каждую базу данных по отдельности. Это очень удобно, в интерфейсе NCBI мне этого часто очень не хватает. Параметры настройки алгоритма такие же, как на сайте NCBI. А еще выравнивания он показывает сразу после информации о белках, это тоже очень неплохо. Зато вот фильтрации по организмам я найти не смог.
Интерфейс Expasy прямо какой-то игрушечный с виду, и главный его недостаток в том, что я пробовал запросить его о чем-нибудь пять раз и ни разу я не смог дождаться загрузки. Видимо, не судьба. Из минусов: фильтр по организмам можно отметить только очень грубый, из плюсов: есть готовый набор протеомов бактерий.
Вообще, мне больше всего нравится интерфейс на сайте NCBI. Он красивый, удобный, отлично настраиваемый, там просто круто реализован фильтр по группам организмов, и, что немаловажно, кнопка BLAST очень большая и внушительная — когда на нее нажимаешь, то ощущаешь себя так, как будто запускаешь какой-то внушительный и сложный процесс ^____^