ID | AC | Количество итераций | Первая итерация | Последняя итерация | |||
Худшее E-value выше порога | Лучшее E-value ниже порога | Худшее E-value выше порога | Лучшее E-value ниже порога | Логарифм отношения и количество найденных белков на каждой итерации | |||
YVDD_BACSU | O06986 | 3 | 2e-18 | 0.93 | 5e-24 | 0.56 | 17.67 (24), 2.88 (26), 23.05 (26) |
MINC_ECOLI | P18196 | 6 | 0.004 | 0.005 | 9e-04 | 0.099 | 0.10 (165), 0.12 (190), 0.18 (204), 0 (453), 1.52 (995), 2.04 (995) |
SSRP_ECOLI | P0A832 | 2 | 3e-12 | 4.9 | 3e-38 | 0.42 | 12.21 (514), 37.15 (514) |
Y380_RHIME | P17265 | 4 | 7e-4 | 0.027 | 3e-18 | 0.024 | 1.59 (15), 6.34 (24), 0.78 (25), 15.90 (25) |
(Для каждого белка указана первая итерация, которая не принесла новых результатов.) При анализе первого белка дополнительно проследим изменение параметра E-value: у самого белка (YVDD_BACSU) он изменился от 9e-139 до 6e-107, а у LOG9_ARATH, который после первой итерации был последним — от 2e-18 до 3e-49. Вообще заметно, что все значения «подтягиваются» друг к другу из экстремально больших и экстремально малых областей. Видимо, это объясняется тем, что при всё продолжающихся итерациях матрица, с одной стороны, становится точнее и специфичнее (и поэтому белки, до этого едва пересекавшие порог, вписываются в профиль весьма уверенно), но, с другой стороны, и строже (этим объясняется увеличение экстремально больших значений E-value).
Изменение разрыва (десятичного логарифма отношения соседних граничных значений) также хорошо заметно, проявляется это так же, как и предыдущее: алгоритм «подтягивает» белки друг к другу, и в целом разрыв растёт. Но иногда случаются пики: например, см. итерацию 3 при анализе последнего белка. Так получилось, что к 24-м белкам второй итерации добавился еще один, 25-й. Именно он вызвал такое резкое уменьшение разрыва: он едва вписался в порог (его E-value был 0.002, а у следующего попавшего в набор белка — 8e-19), условно говоря, на той стадии алгоритм не знал, что с ним делать — выбросить или же оставить. Четвертая итерация расставила все по местам — белок хорошо состыковался с уже отобранной группой и по параметру E-value «подтянулся» к ней. Это еще раз наглядно показывает, что многое зависит от выбора порога, и результаты в значительной степени условны.
Обращает на себя внимание второй белок, MINC_ECOLI, который не сошелся после пятой итерации (хотя, правда, уже следующая завершила дело на отметке в 995 белков). Даже не особенно вдаваясь в подробности, можно заметить, что в выдаче PSI-BLAST все время повторяется два элемента: некие субъединицы транслоказ SecA и белки, участвующие в образовании перегородки при делении клетки. Исходный белок MINC_ECOLI относится ко второй группе. Настораживает, что в финальной выдаче (после последней итерации) сам этот белок, который, собственно, и был исходным для поиска, оказался аж на 346-й позиции при сортировке по E-value. Возможно (позволим себе пофантазировать), белков SecA просто намного больше, чем гомологов исходного, и некоторые из них действительно на него похожи; из-за этого некоторые белки SecA прокрались в группу MINC_ECOLI и постепенно захватили ее, смещая настоящих гомологов с первых мест. Для подкрепления этой гипотезы приведу два выравнивания MINC_ECOLI с найденными белками, расположенными примерно рядом по E-value: один белок — SecA, другой — minC:
Score = 226 bits (577), Expect = 2e-72, Method: Composition-based stats. Identities = 148/231 (64%), Positives = 189/231 (82%), Gaps = 3/231 (1%) Query 1 MSNTPIELKGSSFTLSVVHLHEAEPKVIHQALEDKIAQAPAFLKHAPVVLNVSALEDPVN 60 MS +PIELKGSSFTLSV+HLH++ P+VI QAL++K+ QAPAFLK+APVV+NV+ L + N Sbjct 1 MSQSPIELKGSSFTLSVIHLHDSRPEVIRQALQEKVDQAPAFLKNAPVVINVATLPNGAN 60 Query 61 WSAMHKAVSATGLRVIGVSGCKDAQLKAEIEKMGLPILTEGKEKAPRPAPTPQAPAQNTT 120 W + +AV++ GLR++G+SGC+D + K I + GLP+L+EGK + P P + Sbjct 61 WKDLQQAVTSAGLRIVGISGCQDERQKRAIARAGLPLLSEGKGQKMAPEPV---VSPPEN 117 Query 121 PVTKTRLIDTPVRSGQRIYAPQCDLIVTSHVSAGAELIADGNIHVYGMMRGRALAGASGD 180 TKTR+I+TPVRSGQ+IYA CDLIV S VSAGAELIADGNIH+YGMMRGRALAGASGD Sbjct 118 VPTKTRIINTPVRSGQQIYARNCDLIVISSVSAGAELIADGNIHIYGMMRGRALAGASGD 177 Query 181 RETQIFCTNLMAELVSIAGEYWLSDQIPAEFYGKAARLQLVENALTVQPLN 231 + QIFCT+L AELVSIAG+YWLSDQIP++++G+AARL L++NALT+QPLN Sbjct 178 AQCQIFCTHLGAELVSIAGQYWLSDQIPSDYFGQAARLHLLDNALTIQPLN 228
Query 2 SNTPIELKGSSFTLSVVHLHE-----AEPKVIHQALEDKIAQAPAFLKHAPVVLNVSALE 56 + + ++ + TL+ + + + + + V + + Sbjct 345 AKEGVTIQNENQTLASITFQNYFRLYPKLAGMTGTAMTEAGEFAEIYNLEVVEIPTNLAV 404 Query 57 DPVNWSA--MHKAVSATGLRVIGVSGCKDAQLKAEIEKMGLPILTEGKEKAPRPAPTPQA 114 + A V + C+ + + +E + P Sbjct 405 SRTDHDDEVYRTAKEKYEAIVTLIEECRGRMQPVLVGTTSIE-KSELLSDMLKKKKIPHQ 463 Query 115 PAQNTTPVTKTRLIDTPVRSGQRIYAPQ-----CDLIVTSHVS----------------- 152 + ++ G A D+ + ++ Sbjct 464 VLNARYHEQEAYIVAQAGVPGGVTIATNMAGRGTDIQLGGNLDMRTRMELADVTDPAERV 523 Query 153 ------------AGAELIADGNIHVYGMMRG---------RALAGASGDRETQIFCTNLM 191 ++ G ++V G R R +G GD F +L Sbjct 524 KRIEGLKAEIEVNKQKVRESGGLYVVGSERHESRRIDNQLRGRSGRQGDPGASKFFLSLE 583 Query 192 AELVSIAGEYWLSDQIPAEFYGKAARLQ 219 +L+ I G + + + Sbjct 584 DDLMRIFGSQRMDGMLQKLGLKDGEAIV 611
Ох, не в порядке что-то. Попробуем теперь, по совету из задания, ужесточить требования до 0.001. В этот раз после первой итерации результаты поражают: в списке — 157 белков, и *все* — minC. SecA нигде не видно, даже после черты. После второй итерации белков уже 188, и все опять-таки minC, но SecA уже дышат в затылок: первый же белок, оказавшийся за бортом (но едва не попавший в выборку) — это SecA с E-value 0.003. Третья итерация уже не приносит результатов. Ня! ^___^
Теперь уже более внимательно, чем в самом начале, проследим процесс «заражения» выборки белками SecA, чтобы примерно определить порог, который следует задавать. После первой итерации всё неплохо — белков minC больше (165), и опять-таки SecA нет и в помине. На второй итерации опять SecA дышат в затылок, но на сей раз один из них, благодаря порогу 0.005, с трудом пролез в список. На третьем шаге уже в конец списка пролезли 5 белков SecA и еще 11 каких-то алкоголь-дегидрогеназ. Причем E-value у некоторых из них сразу маленькие, то есть исправить проблему можно было только на предыдущем шаге. Учитывая, что там пролез белок с E-value 0.005, можно предположить, что выставление порога в 0.004, например, решило бы проблему. Протестируем это позже, а пока досмотрим заражение до конца: после четвертой итерации SecA занимают уже более половины списка, но пока окончательно не смешались, оставаясь в нижней части. После пятой итерации SecA составляют уже, на глаз, более 80% списка, хорошо перемешавшись с истинными гомологами, но верх списка все еще прочно удерживают белки minC. Ну и шестая итерация лишь довершает неизбежное, выводя в том тонны SecA и задушивая minC окончательно. Вы прослушали миниатюру «как троллинг забивает в интернете глас истины».
Проверим теперь, что выставление E-value в 0.004 решает проблему. Как и следовало ожидать, все SecA остались за порогом, но вот одна-единственная алкоголь-дегидрогеназа с E-value 0.001 все-таки пролезла в самый конец списка. Посмотрим, сможет ли она вызвать заражение — перейдем к итерации 3. Да: уже 11 левых белков вылазят в конце списка. В общем, на этот раз заражение шло медленнее, но процесс уже не остановить. Однако же идет он настолько медленно, что после 10 итераций конца-краю битве было не видно. Ладно, забудем.
Исходя из того, что мы видели (пролазит левый белок с E-value 0.001), видимо, 0.001 является действительно максимально возможным значением, при котором всё будет работать. Впрочем, однозначно утверждать нельзя, ведь на первую и вторую итерации он тоже влияет... Но и правда что, если попробовать 0.002, то на третьей итерации «левый» белок попадает в выборку и опять начинается заражение.