PSI-BLAST

PSI-BLAST (от Position-Specific Iterated BLAST) - программа для поиска удаленных гомологов белков, использующая технику профилей (Position-specific scoring matrix, PSSM); профиль для поиска строится на основе уже найденных гомологов (итеративная процедура).

1.Итеративный поиск программой PSI-BLAST.

Провожу итеративный поиск программой PSI-BLAST по банку Swiss-Prot для четырёх аминокислотных последовательностей. Первые три последовательности имеют в Swiss-Prot номера доступа P18196, P0A832, P17265; четвёртая – P10943 (последовательность моего белка).

Для этого захожу на сайт http://blast.ncbi.nlm.nih.gov/, следую по ссылке "protein blast", далее в верхнее окошко копирую AC, в разделе "Database" выбираю "Swissprot", а в разделе "Algorithm" - "PSI-BLAST".

Чтобы изменить значение параметра "Max target sequences" с 500 на 5000, щелкаю по "Algorithm parameters" внизу страницы, остальным параметрам оставляю значения по умолчанию.

Выполняю до пяти итераций, пока появляются новые последовательности выше порога на E-value 0,005.

P18196 (MINC_ECOLI).

Для данного белка с каждой последующей итерацией число находок увеличивается.

Значения E-value для худшей находки выше порога от итерации к итерации: 0.004; 0.005; 0.004; 0.005; 7e-04.

Значения E-value для лучшей находки ниже порога от итерации к итерации: 0.005; 0.066; 0.006; 0.005; 0.023.

Разрыв между данными значениями ко второй итерации увеличивается, к третей - уменьшается, на четвертой - равен первому значению в округлении до тысячных, на пятой - больше всего.

P0A832 (SSRP_ECOLI).

Для данного белка с каждой последующей итерацией число находок не изменяется.

Значения E-value для худшей находки выше порога от итерации к итерации: 3e-12; 3e-38.

Значения E-value для лучшей находки ниже порога от итерации к итерации: 4.9; 0.42.

Разрыв между данными значениями ко второй итерации увеличивается.

P17265 (Y380_RHIME).

Для данного белка при первых трех итерациях число находок увеличивается, далее отстается неизменным.

Значения E-value для худшей находки выше порога от итерации к итерации: 7e-04; 5e-09; 0.002; 3e-18.

Значения E-value для лучшей находки ниже порога от итерации к итерации: 0.027; 0.011; 0.012; 0.024.

Разрыв между данными значениями ко второй итерации увеличивается, к третей - уменьшается, на четвертой - больше всего.

P10943 (HUTP_BACSU).

Для данного белка с последующей итерацией число находок не изменяется.

Значения E-value для худшей находки выше порога от итерации к итерации: 1e-50; 1e-74.

Значения E-value для лучшей находки ниже порога от итерации к итерации: 1.2; 0.14.

Разрыв между данными значениями ко второй итерации значительно увеличивается.

Таблица. Изменения E-value у самой лучшей и средней находок

Лучшая находка для P18196 Средняя находка для P18196 - Q55901.2 Лучшая находка для P0A832 Средняя находка для P0A832 - Q9RUC1.2 Лучшая находка для P17265 Средняя находка для P17265 - P47995.2 Лучшая находка для P10943 Средняя находка для P10943 - C5D4K0.1
1 8e-171 7e-04 3e-116 6e-18 7e-141 4e-04 1e-102 2e-56
2 1e-117 7e-28 1e-94 1e-46 1e-77 1e-60 8e-84 1e-74
3 1e-100 6e-34 - - 2e-75 8e-67 - -
4 6e-97 5e-35 - - 1e-71 9e-66 - -
5 1e-83 1e-29 - - - - - -

Видно, что для первого белка значения E-value лучшей и средней находок сначала уменьшаются, потом увеличиваются, список не стабилизируется, при поиске появляются новые последовательности, результаты расходятся.

В случаях остальных трех белков значения E-value лучших находок увеличиваются, а средних - уменьшаются. За проведенное число итераций список успевает стабилизироваться, поиск не дает новых последовательностей, результаты сходятся.

Таблица. Поиск при пороге на E-value 0,005

ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 5 165 0.004 0.005 995 7e-04 0.023
SSRP_ECOLI P0A832 2 514 3e-12 4.9 514 3e-38 0.42
Y380_RHIME P17265 4 15 7e-04 0.027 25 3e-18 0.024
HUTP_BACSU P10943 2 12 1e-50 1.2 12 1e-74 0.14

Для первой последовательности провожу поиск снова, изменив порог с 0,005 на 0,001.

Таблица. Поиск при пороге на E-value 0,001

ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,001) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,001) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 3 157 0.001 0.001 188 4e-12 0.001

Список стабилизировался на третьей итерации, на которй поиск уже не дает новых результатов.

Такое отличие от предыдущего поиска объясняется тем, что используется более строгое пороговое значение Е-value, что позволяет отсечь некоторые последовательности, которые рассматривались в первом случае. При составлении матрицы профиля данные, скорее всего, неподходящие последовательности при втором поиске не учитывались, и процесс сошелся быстрее.

Лучшее E-value ниже порога при поиске составляло 0.001, поэтому, очевидно, повышение порога на сотые приведет к расходимости. Но и уже при пороге 0.00101 при составлении матрицы профиля учитывается последовательность белка FRMA_PASPI (AC P39450), приводя к расходимости результатов. Тем не менее чуть-чуть порог прибавить все-таки можно, например, при пороге 0.001001 итерации ведут себя также, как и при 0.001.


© Eugenia Prokhorova 2011