На главную
II семестр

PSI-BLAST

Задание 1

Проведём итеративный поиск программой PSI-BLAST по банку Swiss-Prot для четырёх аминокислотных последовательностей. Первые три последовательности имеют в Swiss-Prot номера доступа P18196, P0A832, P17265; четвёртая – последовательность моего белка (NADE_BACSU).

Выполняем до пяти итераций, пока появляются новые последовательности; если же и после пятой итерации список не стабилизировался, можно на этом остановиться.

Порог E-value равен 0,005

ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 5 162 0,005 0,005 881 0.002 0.094
SSRP_ECOLI P0A832 2 514 3e-10 5.4 514 5e-31 0,35
RP5M_RHIME P17265 4 15 0,005 0,12 25 8e-15 0,025
NADE_BACSU P08164 5 237 1e-04 0.018 2993 0.005 0.005

Вторая и третья последовательности (SSRP_ECOLI, RP5M_RHIME) сошлись хотя бы раз в пределах 5 итераций. Первая и моя (последняя) последовательности разошлись. "Сходится" - это, когда начиная с некой итерации новые находки перестают появляться, а "расходится" - даже после пятой итерации список не стабилизируется. Вот, например, в первом случае при работе с белком MINC_ECOLI, можно было остановиться на четырёх итерациях, ведь BLAST начал нам выдавать белки совершенно из других семейств. Можно даже сказать, что и после пятой итерации стабилизации списка не произошло. Хотелось бы также отметить, что "разрыв" между значениями E-value у худшей находки выше порога и лучшей – ниже порога, как правило, медленно увеличивается от итерации к итерации, к тому же и E-value лучшей находки увеличивается с каждой последующей итерацией, так как каждый последующий поиск происходит уже не по последовательности белка, а по профилю, созданному при предыдущем поиске.

Задание 2

Итерации для белка MINC_ECOLI и NADE_BACSU "не сошлись". Проведём опять поиск, изменив порог с 0.005 на 0.001. С таким параметром порога для белка MINC_ECOLI третья итерация "сошлась". Это вызвано тем, что с таким параметром порога после третьей итерации не попал белок FRMA_PASPI. Дело в том, что при последующих итерациях эта "находка" добавляет к выдаче несколько десятков белков, которые размывают результат. Ведь чем больше порог, тем больше ненужных белков попадут в список. Проверяя различные значения порога, я определила, что для того чтобы итерации сошлись, максимальное значение порога в данном конкретном случае можно поставить равное как раз 0.001. Что касается моего белка, то он не сошёлся и при E-value равном 0,001, и при 0,0001, и даже при 0,000001. Ниже в таблице приведены результаты для MINC_ECOLI при E-value равном 0,001 и для NADE_BACSU при E-value равном 0,000001.

ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,001) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,001) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 3 155 0,001 0.001 188 3e-10 0.001
NADE_BACSU P08164 5 233 4e-07 1e-06 1411 1e-06 1e-06




© 2009-2010 Dzama Margarita