PSI-BLAST

Сначала я нашел в SRS ID белков
ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 5(выравнивания не сошлись) 165 0.004 0.005 995 7e-04 0.023td>
SSRP_ECOLI P0A832 2 514 3e-12 4.9 514 3e-38 0.42
Y380_RHIME P17265 4 15 7e-04 0.027 25 3e-18 0.024
PDUO_BACSU O34899 2 7 6e-27 0.41 7 3e-63 0.76
ID белка E-value лучшей находки E-value находки, предпоследней в 1 итерации
1 2 3 4 5 1 2 3 4 5
MINC_ECOLI 8e-171 1e-117 1e-100 6e-97 7e-83 0.003 3e-23 1e-35 3e-36 1e-27
SSRP_ECOLI 3e-116 2e-94 - - - 3e-16 6e-50 - - -
Y380_RHIME 7e-141 1e-77 2e-75 1e-71 - 4e-04 1e-60 8e-67 9e-66 -
PDUO_BACSU 6e-138 9e-92 - - - 2e-30 5e-88 - - -



2 задание


Число гомологов белка MINC_ECOLI не устоялись к пятой итерации PSI BLAST при пороге E-value = 0.005, так что я попробовал снизить значение порога до 0.001, и посмотреть,
устоится ли список гомологов к 5 итерации алгоритма
Поиск гомологов белка MINC_ECOLI c E-value=0.001
итерация алгоритма 1 2 3 4 5
Число гомологов 217 264 264 - -
E-value лучшей находки ниже порога 0.0020 0.025 0.014 - -
E-value худшей находки выше порога 0.0010 1.0e-6 1.0e-10 - -

Как видно, число гомологов устоялось после второй итерации, также видно, что различия в E-value между худшей находкой выше порога в последней итерации и лучшей - ниже
различаются на 8 порядков. Я повысил порог до 10-4, а затем и до 10-6(меньший порог задать было невозможно), и число гомологв осталось во всех
случаях одинаковое, 264, правда, при E = 10-6 потребовалось 4 итерации алгоритма для устойчивого числа. Я полагаю, E-value можно повышать до
10-10, правда, для этого потребовалось значительно больше итераций, так что оптимальное значение Е - 10-3~10-4

Я думаю, при E-value 0.005 в результаты "просочился" неродственный белок и дальше он стал "поттягивать" уже своих гомологов.