ID белка | AC белка | Число итераций | Для первой итерации | Для последней итерации | ||||
Число находок выше порога (0,005) | Худшее E-value выше порога | Лучшее E-value ниже порога | Число находок выше порога (0,005) | Худшее E-value выше порога | Лучшее E-value ниже порога | |||
MINC_ECOLI | P18196 | >5 | 162 | 0.005 | 0.006 | 886 | 2e-05 | 0.15 |
SSRP_ECOLI | P0A832 | 2 | 514 | 3e-10 | 5.6 | 514 | 5e-31 | 0.36 |
RP5M_RHIME | P17265 | 4 | 14 | 0.001 | 0.005 | 25 | 9e-15 | 0.14 |
YXBC_BACSU | P46327 | 5 | 32 | 0.004 | 0.006 | 124 | 3e-12 | 0.010 |
Для первого белка P18196 не хватило 5-и итераций для достижения постоянного числа находок.
Я обратил внимание, что после 4-ой итерации произошло наибольшее увеличение числа находок (примерно в 3 раза) =>
я считаю, что после 3-ей итерации в состав PSSM вошли данные от явно не гомологичного найденного белка, =>
На следующей итерации я нашел много гомологов постороннего белка, => мне кажется, что нельзя судить о
гомологичности всех найденых белков
Для SSRP_ECOLI на второй итерации не прибавилось ни одной находки.
Для YXBC_BACSU на пятой итерации не прибавилось ни одной находки, => хватило ровно пяти итераций.
E-value первой находки обычно увеличивается, т.к. данный белок выравнивается не с собой, а с PSSM (можно назвать усредненным гомологом)
E-value средней находки обычно уменьшается, м.б., т.к. если белок настоящий гомолог, то он обычно ближе к среднестатистическому гомологу
чем к какому-нибудь конкретному, => я полагаю, что E-value всех белков из списка, в идеале, должно сходиться (не к одному числу, а хотя бы к интервалу)
Мне потребовалось 3 итерации для стабилизации списка
Итераций было меньше, т.к. после каждой итерации получал меньше белков, чем в прошлый раз, =>
получили меньшее разнообразие => более строгую PSSM, => раньше стабилизировался список.
Такой порог поставить нельзя, т.к. первый невошедший в список белок имеет E-value= 0.016 (больше 2e-05)