Главная
I Семестр
II Семестр
Проекты
Обратная Связь
|
PSI-BLAST
Задание 1
Искал гомологов по банку Swiss-Prot при помощи программы PSI-BLAST
( http://blast.ncbi.nlm.nih.gov/Blast.cgi ) для 4
последовательностей белков. Для каждого из них выполнял до пяти итераций, пока появлялись новые последовательности выше порога 0.005
на E-value (если список стабилизировался раньше, останавливался на этом).
Таблица гомологов, полученных с помощью PSI-BLAST
ID белка |
AC белка |
Число итераций |
Для первой итерации |
Для последней итерации |
Число находок выше порога (0,005) |
Худшее E-value выше порога |
Лучшее E-value ниже порога |
Число находок выше порога (0,005) |
Худшее E-value выше порога |
Лучшее E-value ниже порога |
MINC_ECOLI |
P18196 |
5 |
126 |
0.004 (A8FFT6) |
0.005 (Q92BG9) |
239 |
0.003 (Q64415) |
0.007 (Q57911) |
SSRP_ECOLI |
P0A832 |
2 |
449 |
3e-10 (Q4A5T2) |
5.0 (Q8DEJ0) |
449 |
8e-31 (Q4A5T2) |
0.62 (Q00401) |
NUSB_ECOLI |
P0A780 |
4 |
327 |
0.003 (P72943) |
0.008 (Q1RHG4) |
388 |
2e-12 (P45679) |
0.031 (Q8TVM4) |
RSUA_ECOLI |
P0AA43 |
5 |
66 |
1e-09 (Q4UL59) |
0.31 (Q5E9Z1) |
993 |
0.001 (O26142) |
0.006 (Q2NFZ4) |
На каждой итерации PSI-BLAST создает позиционно-специфичную матрицу для подсчета веса выравнивания и делает следущее
выравнивание по новой матрице. Первое же выравнивание делается по стандартному алгоритму Blastp. При этом E-value лучшей
находки увеличивается от итерации к итерации (например для P0AA43 E-value менялся от 1 к 5 итерации: 8e-135, 2e-90, 5e-73, 6e-61, 9e-52),
для первой итерации лучшая находка соответсвует заданному белку, однако затем меньшее E-value может набирать другой белок, (например для
P0AA43: на первой итерации E-value P0AA43 - 8e-135, а на 5 итерации - 9e-52, в то время как найденный P45124 - 6e-53, имел на первой итерации 3e-75).
Разрыв между значениями E-value у худшей находки выше порога и лучшей - ниже порога от итерации к итерации изменяется по-разному
в разных случаях:
Для P0AA43 на первой итерации был разрыв (0.31-1e-09), а далее по мере увеличения количества белков он уменьшается,
для 2-ой (0.006-0.005), для 3-ей (0.005-0.005), для 4-ой (0.006-0.005), для 5-ой (0.006-0.001). Как видно разрыв становится примерно
одинаковым по мере увеличения количества белков.
Для P0A832 на первой итерации разрыв (5.0-3e-10), дальше он увеличивается на 2-ой (0.62-8e-31), на 3-ей (0.3-3e-31).
Для P0A780 на первой (0.008-0.003), (0.006-0.004), (0.017-5e-07), (0.031-2e-12) - разрыв уменьшается , за исключением последней итерации.
Для средней находки: например для P0AA43 найденный Q8Z7G6 с 1-ой по 5-ую итерацию
имеет E-value 6e-12, 3e-47,2e-42, 2e-35, 1e-31 сначала мы имеем резкое уменьшение E-value, а затем оно потихоньку растет.
Задание 2
Для последовательностей (MINC_ECOLI и RSUA_ECOLI), для которых итерации "не сошлись", произвел поиск вновь, изменив порог
с 0.005 на 0.001.
Произвел поиск со значением E-value=0.001 для последовательности (MINC_ECOLI) и обнаружил, что третья итерация оказалась "сходящейся". Это произошло в связи с тем, что с
таким параметром порога после третьей итерации в список не попал белок P39450(FRMA_PASPI) , относящийся совершенно к другому семейству белков,
E-value которого составляет 0.001. Таким образом, максимальный параметр порога, при котором итерация будет "сходящейся", и будет
составлять 0.001 (при больших порогах белок P39450 попадет в список и повлечет за собой множество других несхожих с MINC_ECOLI белков).
Для P0AA43 с порогом 0.001 - итерации не сходятся, находятся не только родственные белки (как и RSUA_ECOLI т.е. псевдоуридин синтазы),
но и многие другие, например белки выполняющие другие функции (30S ribosomal protein S4), также содержащие S4 РНК-связывающий домен,
на каждой итерации их находится все больше. Если поставить порог низким например 1e-20, то итерации сходятся уже на 3-ем шаге, но не находится очень
много родственных белков, даже относящихся к данному семейству. Если увеличить E-value порога (например до 1e-10), то находится много белков данного
семейства, а также один белок(Q12362, DRAP deaminase) и итерации сходятся на седьмом шаге.
|