назад

PSI-BLAST

Поиск гомологов с использованием позиционно-спецефичной матрицы в PSI-BLAST ( http://blast.ncbi.nlm.nih.gov/Blast.cgi ), по базе данных Swiss-Prot

ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 5, не сходится 126 0.004 (A8FFT6) 0.005 (Q92BG9) 239 0.003 (Q64415) 0.007 (Q57911)
SSRP_ECOLI P0A832 2, сходится 449 3e-10 (Q4A5T2) 5.0 (Q8DEJ0) 449 8e-31 (Q4A5T2) 0.62 (Q00401)
NUSB_ECOLI P0A780 4, сходится 327 0.003 (P72943) 0.008 (Q1RHG4) 388 2e-12 (P45679) 0.031 (Q8TVM4)
PURT_ECOLI P33221 5, не сходиться 245 0.005 (Q8DLH0) 0.005 (Q46Z7) 1658 0.005 (Q6G2Q3) 0.007 (Q5XC60)

На каждой итерации PSI-BLAST создает новую матрицу (позиционно-спецефичную) для подсчета веса выравнивания, следущее выравнивание делает по этой матрице, первое же выравнивание - по стандартной (усредненной) матрице BLOSUM62. При этом E-value лучшей находки увеличивается от итерации к итерации (например для P18196 E-value менялся от 1 к 5 итерации: 4e-134, 2e-92, 2e-82, 4e-79, 2e-77), для первой итерации лучшая находка соответсвует заданному белку, однако затем меньшее E-value может набирать другой белок, (например для P0A780: на первой итерации E-value P0A780 - 5e-76, а на 5 итерации - 7е-48, в то время как найденный Q9HWX6 - 3e-50, имевший на первой итерации 7e-37).

Разрыв между значениями E-value у худшей находки выше порога и лучшей - ниже порога от итерации к итерации меняется по-разному в разных случаях: для P18196 он максимален для 3-ей этерации 0.009, на 2 итерации худщая находка выше порога обладает самым хорошим E-value=7e-07 (на остальных этерациях, как и лучший из тех, что ниже порога - порядка 1e-3); для P0A832 на первой итерации разрыв большой (5.0-3e-10), дальше он сокращается (0.62-8e-31) на 2-ой, (0.3-3e-31) - 3-ей; для P0A780 (0.008-0.003), (0.006-0.004), (0.017-5e-07), (0.031-2e-12) - также уменьшается, если не считать последней итерации; для P33221 найденных белков очень много, разрыв примерно одинаковый.

Интересно, что белок бывший ниже порога, на следующих итерациях может иметь достаточно маленькие E-value и быть выше порога: так для поиска гомологов P18196 на первой этерации ниже порога был Q92BG9 (0.005), на 2-ой - 5е-15, на 3-ей - 6е-25, на 4-ой - 2е-32, на 5-ой немного больше - 1е-30.

Для средней находки E-value уменьшается, но не всегда монотонно: например для P0A780 найденный A8GQY9 с 1-ой по 5-ую этерацию имеет E-value 3e-5, 8e-27, 7e-27, 3e-27.

Интересно, что для сходящегося выравнивания, начиная с какой-то итерации появляются одни и те же последовательности, но на нескольких следующих итерациях их E-value может менятся: так для поиска гомологов P0A780 на 4 итерации не найдено новых последовательностей, E-value лучшей (Q9HWX6) 3e-50, на 5-ой итерации те же последоваетльности, но E-value лучшей - 8e-50, на 6-ой и следующих E-value лучшей - 2e-12.

Сходимость последовательностей

Если изменить порог с 0.005 до 0.001 для P18196, то поиск сходится на 3-ей итерации. Вероятно потому, что на 3-ей итерации с стандартным порогом появляется лишь 1 новый белок P39450 (E-value=0.001 причем ближайший к нему лучший в выдаче белок - Q9ZM51 имеет E-value=5e-10, такой равзрыв говорит, что найденный новый белок - попавший выше порога, но все же далекий от остальных - на следующей итерации привлечет близкие к нему белки). Однако, если при стандартном E-value на 3-ей итерации находка имеет E-value=0.001, это не значит, что при изменненом E-value этот белок будет иметь такой же E-value или вообще найдется на 3-ей итерации, ведь изменятся списки на 1-ой и 2-ой итерации, по которым создаются позиционно-спецефичные матрицы (порог выставляется сразу для всех итераций, а не для конкретно 3-ей например). Т.к при снижении порога количество находок по которым формируется новая матрица уменьшается, E-value белков будет расти (по сравнению с стандартным порогом), т.к. вероятность найти их увеличется (например для поиска гомологов P18196 при пороге=0.005 на 3 итерации E-value Q55901 1e-31, а при заниженном пороге 4e-31, аналагично для самого P18196 2e-82 и 3e-82).

Поэтому если поставить порог так, что бы он был меньше E-value новой находки на какой-нибудь итерации со стандартным порогом, с заниженным порогом эта находка не войдет, но могут не вйоти таже близкие белки-гомологи, если понизить порог очень сильно.

Для P33221 с порогом 0.001 - итерации не сходятся, находятся не только родственные белки (как и PURT_ECOLI имеющие АТФ-связывающий домен), но и многие другие, например белки рибосом, также содержащие АТФ-связывающий домен, на каждой итерации их находится все больше. Если поставить порог очень низким например 7e-55, то итерации сходятся уже на 2-ом шаге, но не находится очень много родственных белков, даже относящихся к семейству PURT. Если увеличить E-value порога (например до 1e-08), то находится много белков с АТФ-связывающим доменом, итерации не сходятся.