PSI-BLAST
PSI-BLAST (от Position-Specific Iterated BLAST) - программа для поиска удаленных гомологов белков, использующая технику профилей (Position-specific scoring matrix, PSSM); профиль для поиска строится на основе уже найденных гомологов (итеративная процедура).
1.Итеративный поиск программой PSI-BLAST.
Провожу итеративный поиск программой PSI-BLAST по банку Swiss-Prot для четырёх аминокислотных последовательностей. Первые три последовательности имеют в Swiss-Prot номера доступа P18196, P0A832, P17265; четвёртая – P10943 (последовательность моего белка).
Для этого захожу на сайт http://blast.ncbi.nlm.nih.gov/, следую по ссылке "protein blast", далее в верхнее окошко копирую AC, в разделе "Database" выбираю "Swissprot", а в разделе "Algorithm" - "PSI-BLAST".
Чтобы изменить значение параметра "Max target sequences" с 500 на 5000, щелкаю по "Algorithm parameters" внизу страницы, остальным параметрам оставляю значения по умолчанию.
Выполняю до пяти итераций, пока появляются новые последовательности выше порога на E-value 0,005.
P18196 (MINC_ECOLI).
Для данного белка с каждой последующей итерацией число находок увеличивается.
Значения E-value для худшей находки выше порога от итерации к итерации: 0.004; 0.005; 0.004; 0.005; 7e-04.
Значения E-value для лучшей находки ниже порога от итерации к итерации: 0.005; 0.066; 0.006; 0.005; 0.023.
Разрыв между данными значениями ко второй итерации увеличивается, к третей - уменьшается, на четвертой - равен первому значению в округлении до тысячных, на пятой - больше всего.
P0A832 (SSRP_ECOLI).
Для данного белка с каждой последующей итерацией число находок не изменяется.
Значения E-value для худшей находки выше порога от итерации к итерации: 3e-12; 3e-38.
Значения E-value для лучшей находки ниже порога от итерации к итерации: 4.9; 0.42.
Разрыв между данными значениями ко второй итерации увеличивается.
P17265 (Y380_RHIME).
Для данного белка при первых трех итерациях число находок увеличивается, далее отстается неизменным.
Значения E-value для худшей находки выше порога от итерации к итерации: 7e-04; 5e-09; 0.002; 3e-18.
Значения E-value для лучшей находки ниже порога от итерации к итерации: 0.027; 0.011; 0.012; 0.024.
Разрыв между данными значениями ко второй итерации увеличивается, к третей - уменьшается, на четвертой - больше всего.
P10943 (HUTP_BACSU).
Для данного белка с последующей итерацией число находок не изменяется.
Значения E-value для худшей находки выше порога от итерации к итерации: 1e-50; 1e-74.
Значения E-value для лучшей находки ниже порога от итерации к итерации: 1.2; 0.14.
Разрыв между данными значениями ко второй итерации значительно увеличивается.
Таблица. Изменения E-value у самой лучшей и средней находок
№ | Лучшая находка для P18196 | Средняя находка для P18196 - Q55901.2 | Лучшая находка для P0A832 | Средняя находка для P0A832 - Q9RUC1.2 | Лучшая находка для P17265 | Средняя находка для P17265 - P47995.2 | Лучшая находка для P10943 | Средняя находка для P10943 - C5D4K0.1 |
1 | 8e-171 | 7e-04 | 3e-116 | 6e-18 | 7e-141 | 4e-04 | 1e-102 | 2e-56 |
2 | 1e-117 | 7e-28 | 1e-94 | 1e-46 | 1e-77 | 1e-60 | 8e-84 | 1e-74 |
3 | 1e-100 | 6e-34 | - | - | 2e-75 | 8e-67 | - | - |
4 | 6e-97 | 5e-35 | - | - | 1e-71 | 9e-66 | - | - |
5 | 1e-83 | 1e-29 | - | - | - | - | - | - |
Видно, что для первого белка значения E-value лучшей и средней находок сначала уменьшаются, потом увеличиваются, список не стабилизируется, при поиске появляются новые последовательности, результаты расходятся.
В случаях остальных трех белков значения E-value лучших находок увеличиваются, а средних - уменьшаются. За проведенное число итераций список успевает стабилизироваться, поиск не дает новых последовательностей, результаты сходятся.
Таблица. Поиск при пороге на E-value 0,005
ID белка | AC белка | Число итераций | Для первой итерации | Для последней итерации | ||||
Число находок выше порога (0,005) | Худшее E-value выше порога | Лучшее E-value ниже порога | Число находок выше порога (0,005) | Худшее E-value выше порога | Лучшее E-value ниже порога | |||
MINC_ECOLI | P18196 | 5 | 165 | 0.004 | 0.005 | 995 | 7e-04 | 0.023 |
SSRP_ECOLI | P0A832 | 2 | 514 | 3e-12 | 4.9 | 514 | 3e-38 | 0.42 |
Y380_RHIME | P17265 | 4 | 15 | 7e-04 | 0.027 | 25 | 3e-18 | 0.024 |
HUTP_BACSU | P10943 | 2 | 12 | 1e-50 | 1.2 | 12 | 1e-74 | 0.14 |
Для первой последовательности провожу поиск снова, изменив порог с 0,005 на 0,001.
Таблица. Поиск при пороге на E-value 0,001
ID белка | AC белка | Число итераций | Для первой итерации | Для последней итерации | ||||
Число находок выше порога (0,001) | Худшее E-value выше порога | Лучшее E-value ниже порога | Число находок выше порога (0,001) | Худшее E-value выше порога | Лучшее E-value ниже порога | |||
MINC_ECOLI | P18196 | 3 | 157 | 0.001 | 0.001 | 188 | 4e-12 | 0.001 |
Список стабилизировался на третьей итерации, на которй поиск уже не дает новых результатов.
Такое отличие от предыдущего поиска объясняется тем, что используется более строгое пороговое значение Е-value, что позволяет отсечь некоторые последовательности, которые рассматривались в первом случае. При составлении матрицы профиля данные, скорее всего, неподходящие последовательности при втором поиске не учитывались, и процесс сошелся быстрее.
Лучшее E-value ниже порога при поиске составляло 0.001, поэтому, очевидно, повышение порога на сотые приведет к расходимости. Но и уже при пороге 0.00101 при составлении матрицы профиля учитывается последовательность белка FRMA_PASPI (AC P39450), приводя к расходимости результатов. Тем не менее чуть-чуть порог прибавить все-таки можно, например, при пороге 0.001001 итерации ведут себя также, как и при 0.001.
© Eugenia Prokhorova 2011