Главная Семестры Проекты Обо мне

PSI-BLAST



ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 > 5 (результаты для 5) 165 0.004 0.005 995 7e-04 0.023
SSRP_ECOLI P0A832 2 514 3e-12 4.9 514 3e-38 0.42
Y380_RHIME P17265 4 15 7e-04 0.027 25 3e-18 0.024
ENGB_BACSU P38424 5 833 0.005 0.005 833 0.005 0.005


1) Для первой последовательности (P18196) было проведено 5 итераций, по результатам которых можно сказать, что результаты расходятся. При каждой итерации появляются новые найденные последовательности, разрыв в E-value увеличился (0.001 --> 0.0223). Если проанализировать E-value собственно данной последовательности, то он постоянно рос (8e-171, 1e-117, 1e-100, 6e-97, 7e-83), и в 5й итерации она даже стоит не на первом месте в результатах поиска. Все это свидетельствует о расходимости результатов. Стоит заметить, что уже 6 итерация не добавляет результатов в поиск (все так же 995).

2) В случае со второй последовательностю, результаты явно сходятся. Их количество не меняется, начиная сразу со второй итерации, разрыв между худшими результатами до порога и лучшими после заметно уменьшился (см. таблицу). E-value данного белка, логично, повысился (3e-116 --> 1e-94).

3) Результаты поиска по третьей последовательности также сходятся. Всего было проведено 4 итерации до того, как количество результатов перестало изменяться. Разрыв между худшым результатом до порога и лучшим после него снизился, как и в случае с предыдущей последовательностью. Мы видим такую же тенденцию, как и в прошлый раз, и с изменениями e-value начального белка (7e-141, 1e-77, 2e-75, 1e-71) и "средней" последовательности Q5XAQ7 (2e-07, 1e-49, 1e-57, 8e-58).

4) При 2й итерации поиск увеличился более чем до 5000 последовательностей, пришлось увеличивать параметр "Max target sequences" до 10000 последовательностей. При 3й интерации количество находок резко уменьшилось до 63 - ниже порога E-value и до 190 - выше порога. И наконец, при 5й итерации результаты идеально сошлись.

№ итерации Количество находок Худшее e-value до порога Лучшее e-value после порога E-value MINC_ECOLI
1 157 0.001 0.001 8e-171
2 188 8e-08 0.003 9e-119
3 188 4e-12 0.001 4e-112


Проверив результаты на расходимость при разных значениях порога, можно сделать вывод, что даже при 0,0011 они уже начинают расходится, то есть этот порог - максимальный.


Расходимость при бОльших порогах происходит потому, что таким образом устанавливаются менее строгие параметры для поиска последовательностей, соответственно, они становятся все менее похожи друг на друга, выделить "среднее" все труднее, и, как следствие, каждый раз находится все больше новых результатов и поиск не сходится. При установки же параметра на 0,001 в данном случае какие-то "мешающие" белки отсекаются и результаты сходятся.
©Melnichuk Anastasia