PSI-BLAST

Проводим итеративный поиск программой PSI-BLAST (http://blast.ncbi.nlm.nih.gov/) по банку Swiss-Prot для четырёх аминокислотных последовательностей:
P18196,
P0A832,
P17265,
последовательность моего белка (SPSE_BACSU).


При поиске будем исползовать следущие параметры: максимальный размер выдачи - 5000, банк SwissProt, PSI-BLAST


Выполняем до пяти итераций, пока появляются новые последовательности выше порога на E-value 0,005.

Заполняем таблицу:

ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 5 165 0.004 0.005 995 7e-04 0.023
SSRP_ECOLI P0A832 1 514 3e-12 4.9 514 3e-38 0,42
Y380_RHIME P17265 3 15 7e-04 0.027 25 3e-18 0.024
SPSE_BACSU P39625 1 3 2e-38 1,1 3 9e-164 0.032


Для первого поиска (P18196):
1. Число находок с каждой итерацией увеличивается. Новые последовательности перестают появляться только с 6 итерации
2. Значения E-value для худшей находки выше порога (в каждой итерации): 0.004; 0.005; 0.004; 0.005; 7e-04.
3. Значения E-value для лучшей находки ниже порога (в каждой итерации): 0.005; 0.066; 0.006; 0.005; 0.023.
Разрыв между значениями постоянно колеблется (то увеличивается, то уменьшается). Значит, постоянно появляются "лишние" последовательности, что может свидетельствовать о наличии в белке неспецифических участков.
Для второго поиска(P0A832):
1.Все последовательности находятся с первой итерации(с каждой последующей итерацией число находок не меняется)
2. Значения E-value для худшей находки выше порога (в каждой итерации): 3e-12; 3e-38.
3. Значения E-value для лучшей находки ниже порога (в каждой итерации): 4.9; 0.42.
Процесс сходится ко второй итерации, при этом разрыв в значениях увеличивается
Для третьего поиска(P17265):
1. Для данного белка при первых трех итерациях число находок увеличивается, далее отстается неизменным.
2. Значения E-value для худшей находки выше порога от итерации к итерации: 7e-04; 5e-09; 0.002; 3e-18.
3. Значения E-value для лучшей находки ниже порога от итерации к итерации: 0.027; 0.011; 0.012; 0.024.
Процесс сошелся, но разрывы в значениях колеблются
Для четвертого поиска (P39625):
1. Для данного белка с каждой последующей итерацией число находок увеличивается.
2. Значения E-value для худшей находки выше порога от итерации к итерации: 2e-38; 9e-164.
3. Значения E-value для лучшей находки ниже порога от итерации к итерации: 1,1; 0.032.
Процесс сошелся, разрыв в значениях увеличился


Изменим e-value на 0.001. Да, при таком значении список стабилизируется на 3 итерации(число находок уже в ней не меняется).
ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 3 155 0.001 - 188 6e-12 -

Примечательно, что отсутствуют последовательности со значениями e-value ниже порога
Отличие от поиска с e-value 0,005 заключается в том, что используется более строгое пороговое значени, что "отсекает" некоторые последовательности, рассматриваемые в первом случае. Такие последовательности не учитывались, и процесс сошелся быстрее
В принципе, и при значении e-value 0.0011 процесс сходится на третьей итерации. Из этого можно сделать вывод, что разница в десятитысячных не влияет на сходимость процесса