PSI-BLAST


1)

ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 >5 162 0.005 0.006 886 2e-05 0.15
SSRP_ECOLI P0A832 2 514 3e-10 5.6 514 5e-31 0.36
RP5M_RHIME P17265 4 14 0.001 0.005 25 9e-15 0.14
YXBC_BACSU P46327 5 32 0.004 0.006 124 3e-12 0.010

Для первого белка P18196 не хватило 5-и итераций для достижения постоянного числа находок.
Я обратил внимание, что после 4-ой итерации произошло наибольшее увеличение числа находок (примерно в 3 раза) =>
я считаю, что после 3-ей итерации в состав PSSM вошли данные от явно не гомологичного найденного белка, =>
На следующей итерации я нашел много гомологов постороннего белка, => мне кажется, что нельзя судить о
гомологичности всех найденых белков

Для SSRP_ECOLI на второй итерации не прибавилось ни одной находки.

Для YXBC_BACSU на пятой итерации не прибавилось ни одной находки, => хватило ровно пяти итераций.

E-value первой находки обычно увеличивается, т.к. данный белок выравнивается не с собой, а с PSSM (можно назвать усредненным гомологом)
E-value средней находки обычно уменьшается, м.б., т.к. если белок настоящий гомолог, то он обычно ближе к среднестатистическому гомологу
чем к какому-нибудь конкретному, => я полагаю, что E-value всех белков из списка, в идеале, должно сходиться (не к одному числу, а хотя бы к интервалу)


2)

Мне потребовалось 3 итерации для стабилизации списка
Итераций было меньше, т.к. после каждой итерации получал меньше белков, чем в прошлый раз, =>
получили меньшее разнообразие => более строгую PSSM, => раньше стабилизировался список.

Такой порог поставить нельзя, т.к. первый невошедший в список белок имеет E-value= 0.016 (больше 2e-05)


Главная страница (см. ниже)

©Abdullaev Eldar