PSI-BLAST

1)

ID белка	AC белка	Число итераций	Для первой итерации			Для последней итерации
ID белка	AC белка	Число итераций	Число находок выше порога (0,005)	Худшее E-value выше порога	Лучшее E-value ниже порога	Число находок выше порога (0,005)	Худшее E-value выше порога	Лучшее E-value ниже порога
MINC_ECOLI	P18196	>5	162	0.005	0.006	886	2e-05	0.15
SSRP_ECOLI	P0A832	2	514	3e-10	5.6	514	5e-31	0.36
RP5M_RHIME	P17265	4	14	0.001	0.005	25	9e-15	0.14
YXBC_BACSU	P46327	5	32	0.004	0.006	124	3e-12	0.010

Для первого белка P18196 не хватило 5-и итераций для достижения постоянного числа находок.
Я обратил внимание, что после 4-ой итерации произошло наибольшее увеличение числа находок (примерно в 3 раза) =>
я считаю, что после 3-ей итерации в состав PSSM вошли данные от явно не гомологичного найденного белка, =>
На следующей итерации я нашел много гомологов постороннего белка, => мне кажется, что нельзя судить о
гомологичности всех найденых белков

Для SSRP_ECOLI на второй итерации не прибавилось ни одной находки.

Для YXBC_BACSU на пятой итерации не прибавилось ни одной находки, => хватило ровно пяти итераций.

E-value первой находки обычно увеличивается, т.к. данный белок выравнивается не с собой, а с PSSM (можно назвать усредненным гомологом)
E-value средней находки обычно уменьшается, м.б., т.к. если белок настоящий гомолог, то он обычно ближе к среднестатистическому гомологу
чем к какому-нибудь конкретному, => я полагаю, что E-value всех белков из списка, в идеале, должно сходиться (не к одному числу, а хотя бы к интервалу)

2)

Мне потребовалось 3 итерации для стабилизации списка
Итераций было меньше, т.к. после каждой итерации получал меньше белков, чем в прошлый раз, =>
получили меньшее разнообразие => более строгую PSSM, => раньше стабилизировался список.

Такой порог поставить нельзя, т.к. первый невошедший в список белок имеет E-value= 0.016 (больше 2e-05)

Главная страница (см. ниже)