Проводим итеративный поиск программой PSI-BLAST
(
http://blast.ncbi.nlm.nih.gov/)
по банку Swiss-Prot для четырёх аминокислотных последовательностей:
P18196,
P0A832,
P17265,
последовательность моего белка (SPSE_BACSU).
При поиске будем исползовать следущие параметры: максимальный размер выдачи - 5000, банк SwissProt, PSI-BLAST
Выполняем до пяти итераций, пока появляются новые последовательности выше порога на E-value 0,005.
Заполняем таблицу:
ID белка |
AC белка |
Число итераций |
Для первой итерации |
Для последней итерации |
Число находок выше порога (0,005) |
Худшее E-value выше порога |
Лучшее E-value ниже порога |
Число находок выше порога (0,005) |
Худшее E-value выше порога |
Лучшее E-value ниже порога |
MINC_ECOLI |
P18196 |
5 |
165 |
0.004 |
0.005 |
995 |
7e-04 |
0.023 |
SSRP_ECOLI |
P0A832 |
1 |
514 |
3e-12 |
4.9 |
514 |
3e-38 |
0,42 |
Y380_RHIME |
P17265 |
3 |
15 |
7e-04 |
0.027 |
25 |
3e-18 |
0.024 |
SPSE_BACSU |
P39625 |
1 |
3 |
2e-38 |
1,1 |
3 |
9e-164 |
0.032 |
Для первого поиска (P18196):
1. Число находок с каждой итерацией увеличивается. Новые последовательности перестают появляться только с 6 итерации
2. Значения E-value для худшей находки выше порога (в каждой итерации): 0.004; 0.005; 0.004; 0.005; 7e-04.
3. Значения E-value для лучшей находки ниже порога (в каждой итерации): 0.005; 0.066; 0.006; 0.005; 0.023.
Разрыв между значениями постоянно колеблется (то увеличивается, то уменьшается). Значит, постоянно появляются "лишние" последовательности, что может свидетельствовать о наличии в белке неспецифических участков.
Для второго поиска(P0A832):
1.Все последовательности находятся с первой итерации(с каждой последующей итерацией число находок не меняется)
2. Значения E-value для худшей находки выше порога (в каждой итерации): 3e-12; 3e-38.
3. Значения E-value для лучшей находки ниже порога (в каждой итерации): 4.9; 0.42.
Процесс сходится ко второй итерации, при этом разрыв в значениях увеличивается
Для третьего поиска(P17265):
1. Для данного белка при первых трех итерациях число находок увеличивается, далее отстается неизменным.
2. Значения E-value для худшей находки выше порога от итерации к итерации: 7e-04; 5e-09; 0.002; 3e-18.
3. Значения E-value для лучшей находки ниже порога от итерации к итерации: 0.027; 0.011; 0.012; 0.024.
Процесс сошелся, но разрывы в значениях колеблются
Для четвертого поиска (P39625):
1. Для данного белка с каждой последующей итерацией число находок увеличивается.
2. Значения E-value для худшей находки выше порога от итерации к итерации: 2e-38; 9e-164.
3. Значения E-value для лучшей находки ниже порога от итерации к итерации: 1,1; 0.032.
Процесс сошелся, разрыв в значениях увеличился
Изменим e-value на 0.001. Да, при таком значении список стабилизируется на 3 итерации(число находок уже в ней не меняется).
ID белка |
AC белка |
Число итераций |
Для первой итерации |
Для последней итерации |
Число находок выше порога (0,005) |
Худшее E-value выше порога |
Лучшее E-value ниже порога |
Число находок выше порога (0,005) |
Худшее E-value выше порога |
Лучшее E-value ниже порога |
MINC_ECOLI |
P18196 |
3 |
155 |
0.001 |
- |
188 |
6e-12 |
- |
Примечательно, что отсутствуют последовательности со значениями e-value ниже порога
Отличие от поиска с e-value 0,005 заключается в том, что используется более строгое пороговое значени, что "отсекает" некоторые последовательности, рассматриваемые в первом случае. Такие последовательности не учитывались, и процесс сошелся быстрее
В принципе, и при значении e-value 0.0011 процесс сходится на третьей итерации. Из этого можно сделать вывод, что разница в десятитысячных не влияет на сходимость процесса