Необходимо провести итеративный поиск программой PSI-BLAST (http://blast.ncbi.nlm.nih.gov/) по банку Swiss-Prot для четырёх аминокислотных последовательностей: первые три с номерами доступа P18196, P0A832, P17265, а последняя - последовательность моего белка (GUAD_BACSU).
При поиске будем исползовать следущие параметры:

Теперь выполним до пяти итераций, пока появляются новые последовательности выше порога на E-value 0,005.
По этим данным выдачи заполним таблицу:
ID белка | AC белка | Число итераций | Для первой итерации | Для последней итерации | ||||
Число находок выше порога (0,005) | Худшее E-value выше порога | Лучшее E-value ниже порога | Число находок выше порога (0,005) | Худшее E-value выше порога | Лучшее E-value ниже порога | |||
MINC_ECOLI | P18196 | 4 | 165 | 0.004 | 0.005 | 995 | 0.002 | 0.043 |
SSRP_ECOLI | P0A832 | 1 | 514 | 3e-12 | 4.9 | 514 | 3e-38 | 0.42 |
Y380_RHIME | P17265 | 3 | 15 | 7e-04 | 0.027 | 25 | 3e-18 | 0.024 |
GUAD_BACSU | O34598 | 1 | 36 | 0.005 | 0.006 | 74 | 3e-15 | 0.017 |
В первом случае разрыв E-value изменился незначительно (возможно это связано с тем, что если ничего не убирать, в итерациях появляется много новых "лишних" последовательностей, следовательно, есть неспецифичные участки, встречающиеся у многих белков и портящие матрицу).
Во втором белке разрыв сильно вырос (1-я итерация сошлась, следовательно, последовательность специфична)
В третьем случае и в итерациях моего белка разрыв также вырос.
Теперь при e-value 0.001, если никакие последовательности не исключать, то поиск для последовательности P18196 стабилизировался после 2-ой итерации: e-value меньше, требования к находкам строже, следовательно, "случайные" последовательности в той или иной мере отсеиваются.
Наверх