Учебный сайт Кирилла Цуканова → Второй семестр

PSI–BLAST

IDACКоличество итерацийПервая итерацияПоследняя итерация
Худшее E-value выше порогаЛучшее E-value ниже порогаХудшее E-value выше порогаЛучшее E-value ниже порогаЛогарифм отношения и количество найденных белков на каждой итерации
YVDD_BACSUO0698632e-180.935e-240.5617.67 (24), 2.88 (26), 23.05 (26)
MINC_ECOLIP1819660.0040.0059e-040.0990.10 (165), 0.12 (190), 0.18 (204), 0 (453), 1.52 (995), 2.04 (995)
SSRP_ECOLIP0A83223e-124.93e-380.4212.21 (514), 37.15 (514)
Y380_RHIMEP1726547e-40.0273e-180.0241.59 (15), 6.34 (24), 0.78 (25), 15.90 (25)

(Для каждого белка указана первая итерация, которая не принесла новых результатов.) При анализе первого белка дополнительно проследим изменение параметра E-value: у самого белка (YVDD_BACSU) он изменился от 9e-139 до 6e-107, а у LOG9_ARATH, который после первой итерации был последним — от 2e-18 до 3e-49. Вообще заметно, что все значения «подтягиваются» друг к другу из экстремально больших и экстремально малых областей. Видимо, это объясняется тем, что при всё продолжающихся итерациях матрица, с одной стороны, становится точнее и специфичнее (и поэтому белки, до этого едва пересекавшие порог, вписываются в профиль весьма уверенно), но, с другой стороны, и строже (этим объясняется увеличение экстремально больших значений E-value).

Изменение разрыва (десятичного логарифма отношения соседних граничных значений) также хорошо заметно, проявляется это так же, как и предыдущее: алгоритм «подтягивает» белки друг к другу, и в целом разрыв растёт. Но иногда случаются пики: например, см. итерацию 3 при анализе последнего белка. Так получилось, что к 24-м белкам второй итерации добавился еще один, 25-й. Именно он вызвал такое резкое уменьшение разрыва: он едва вписался в порог (его E-value был 0.002, а у следующего попавшего в набор белка — 8e-19), условно говоря, на той стадии алгоритм не знал, что с ним делать — выбросить или же оставить. Четвертая итерация расставила все по местам — белок хорошо состыковался с уже отобранной группой и по параметру E-value «подтянулся» к ней. Это еще раз наглядно показывает, что многое зависит от выбора порога, и результаты в значительной степени условны.

Обращает на себя внимание второй белок, MINC_ECOLI, который не сошелся после пятой итерации (хотя, правда, уже следующая завершила дело на отметке в 995 белков). Даже не особенно вдаваясь в подробности, можно заметить, что в выдаче PSI-BLAST все время повторяется два элемента: некие субъединицы транслоказ SecA и белки, участвующие в образовании перегородки при делении клетки. Исходный белок MINC_ECOLI относится ко второй группе. Настораживает, что в финальной выдаче (после последней итерации) сам этот белок, который, собственно, и был исходным для поиска, оказался аж на 346-й позиции при сортировке по E-value. Возможно (позволим себе пофантазировать), белков SecA просто намного больше, чем гомологов исходного, и некоторые из них действительно на него похожи; из-за этого некоторые белки SecA прокрались в группу MINC_ECOLI и постепенно захватили ее, смещая настоящих гомологов с первых мест. Для подкрепления этой гипотезы приведу два выравнивания MINC_ECOLI с найденными белками, расположенными примерно рядом по E-value: один белок — SecA, другой — minC:

 Score =  226 bits (577),  Expect = 2e-72, Method: Composition-based stats.
 Identities = 148/231 (64%), Positives = 189/231 (82%), Gaps = 3/231 (1%)

Query  1    MSNTPIELKGSSFTLSVVHLHEAEPKVIHQALEDKIAQAPAFLKHAPVVLNVSALEDPVN  60
            MS +PIELKGSSFTLSV+HLH++ P+VI QAL++K+ QAPAFLK+APVV+NV+ L +  N
Sbjct  1    MSQSPIELKGSSFTLSVIHLHDSRPEVIRQALQEKVDQAPAFLKNAPVVINVATLPNGAN  60

Query  61   WSAMHKAVSATGLRVIGVSGCKDAQLKAEIEKMGLPILTEGKEKAPRPAPTPQAPAQNTT  120
            W  + +AV++ GLR++G+SGC+D + K  I + GLP+L+EGK +   P P     +    
Sbjct  61   WKDLQQAVTSAGLRIVGISGCQDERQKRAIARAGLPLLSEGKGQKMAPEPV---VSPPEN  117

Query  121  PVTKTRLIDTPVRSGQRIYAPQCDLIVTSHVSAGAELIADGNIHVYGMMRGRALAGASGD  180
              TKTR+I+TPVRSGQ+IYA  CDLIV S VSAGAELIADGNIH+YGMMRGRALAGASGD
Sbjct  118  VPTKTRIINTPVRSGQQIYARNCDLIVISSVSAGAELIADGNIHIYGMMRGRALAGASGD  177

Query  181  RETQIFCTNLMAELVSIAGEYWLSDQIPAEFYGKAARLQLVENALTVQPLN  231
             + QIFCT+L AELVSIAG+YWLSDQIP++++G+AARL L++NALT+QPLN
Sbjct  178  AQCQIFCTHLGAELVSIAGQYWLSDQIPSDYFGQAARLHLLDNALTIQPLN  228
Query  2    SNTPIELKGSSFTLSVVHLHE-----AEPKVIHQALEDKIAQAPAFLKHAPVVLNVSALE  56
            +   + ++  + TL+ +          +   +      +  +         V +  +   
Sbjct  345  AKEGVTIQNENQTLASITFQNYFRLYPKLAGMTGTAMTEAGEFAEIYNLEVVEIPTNLAV  404

Query  57   DPVNWSA--MHKAVSATGLRVIGVSGCKDAQLKAEIEKMGLPILTEGKEKAPRPAPTPQA  114
               +        A       V  +  C+       +    +   +E      +    P  
Sbjct  405  SRTDHDDEVYRTAKEKYEAIVTLIEECRGRMQPVLVGTTSIE-KSELLSDMLKKKKIPHQ  463

Query  115  PAQNTTPVTKTRLIDTPVRSGQRIYAPQ-----CDLIVTSHVS-----------------  152
                     +  ++      G    A        D+ +  ++                  
Sbjct  464  VLNARYHEQEAYIVAQAGVPGGVTIATNMAGRGTDIQLGGNLDMRTRMELADVTDPAERV  523

Query  153  ------------AGAELIADGNIHVYGMMRG---------RALAGASGDRETQIFCTNLM  191
                           ++   G ++V G  R          R  +G  GD     F  +L 
Sbjct  524  KRIEGLKAEIEVNKQKVRESGGLYVVGSERHESRRIDNQLRGRSGRQGDPGASKFFLSLE  583

Query  192  AELVSIAGEYWLSDQIPAEFYGKAARLQ  219
             +L+ I G   +   +          + 
Sbjct  584  DDLMRIFGSQRMDGMLQKLGLKDGEAIV  611

Ох, не в порядке что-то. Попробуем теперь, по совету из задания, ужесточить требования до 0.001. В этот раз после первой итерации результаты поражают: в списке — 157 белков, и *все* — minC. SecA нигде не видно, даже после черты. После второй итерации белков уже 188, и все опять-таки minC, но SecA уже дышат в затылок: первый же белок, оказавшийся за бортом (но едва не попавший в выборку) — это SecA с E-value 0.003. Третья итерация уже не приносит результатов. Ня! ^___^

Теперь уже более внимательно, чем в самом начале, проследим процесс «заражения» выборки белками SecA, чтобы примерно определить порог, который следует задавать. После первой итерации всё неплохо — белков minC больше (165), и опять-таки SecA нет и в помине. На второй итерации опять SecA дышат в затылок, но на сей раз один из них, благодаря порогу 0.005, с трудом пролез в список. На третьем шаге уже в конец списка пролезли 5 белков SecA и еще 11 каких-то алкоголь-дегидрогеназ. Причем E-value у некоторых из них сразу маленькие, то есть исправить проблему можно было только на предыдущем шаге. Учитывая, что там пролез белок с E-value 0.005, можно предположить, что выставление порога в 0.004, например, решило бы проблему. Протестируем это позже, а пока досмотрим заражение до конца: после четвертой итерации SecA занимают уже более половины списка, но пока окончательно не смешались, оставаясь в нижней части. После пятой итерации SecA составляют уже, на глаз, более 80% списка, хорошо перемешавшись с истинными гомологами, но верх списка все еще прочно удерживают белки minC. Ну и шестая итерация лишь довершает неизбежное, выводя в том тонны SecA и задушивая minC окончательно. Вы прослушали миниатюру «как троллинг забивает в интернете глас истины».

Проверим теперь, что выставление E-value в 0.004 решает проблему. Как и следовало ожидать, все SecA остались за порогом, но вот одна-единственная алкоголь-дегидрогеназа с E-value 0.001 все-таки пролезла в самый конец списка. Посмотрим, сможет ли она вызвать заражение — перейдем к итерации 3. Да: уже 11 левых белков вылазят в конце списка. В общем, на этот раз заражение шло медленнее, но процесс уже не остановить. Однако же идет он настолько медленно, что после 10 итераций конца-краю битве было не видно. Ладно, забудем.

Исходя из того, что мы видели (пролазит левый белок с E-value 0.001), видимо, 0.001 является действительно максимально возможным значением, при котором всё будет работать. Впрочем, однозначно утверждать нельзя, ведь на первую и вторую итерации он тоже влияет... Но и правда что, если попробовать 0.002, то на третьей итерации «левый» белок попадает в выборку и опять начинается заражение.