PSI-BLAST (Position-Specific Iterated BLAST) позволяет найти удаленные гомологи белка, которые не находятся обычным поиском в BLAST. PSI-BLAST работает циклически, после каждой итерации строя позиционную матрицу весов (position-specific scoring matrix, PSSM) на основе множественного выравнивания найденных гомологов белка с порогом E-value выше заданного.
Я работала с белком BCL2-подобным фактором апоптоза (идентификатор Q3U7X3) из домовой мыши. В таблице 1 приведена информация об итерациях PSI_BLAST:
Номер итерации | Число находок выше порога | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1' | 245 | XP_005139758.1 | 0.005 | NP_001089746.1 | 0.009 |
1 | 244 | XP_006638530.1 | 9e-05 | XP_005139758.1 | 0.005 |
2 | 247 | NP_001129263.1 | 3e-05 | XP_003878174.1 | 0.092 |
3 | 247 | XP_005139758.1 | 3e-07 | WP_022706175.1 | 0.064 |
4 | 249 | XP_005474458.1 | 6e-04 | XP_004570082.1 | 0.007 |
5 | 253 | XP_007551188.1 | 4e-04 | XP_002610635.1 | 0.018 |
6 | 254 | XP_002610635.1 | 0.003 | XP_006818559.1 | 0.072 |
7 | 254 | XP_004707988.1 | 2e-06 | XP_006818559.1 | 0.049 |
8 | 253 | XP_004707988.1 | 1e-08 | XP_002610635.1 | 0.004 |
В каждой итерации я смотрела на результаты (в основном на последний белок выше порога) и, если нужно, меняла параметры для следующей итерации:
- Первую итерацию я провела с порогом E-value 0.005, но тогда крайняя запись выше порога была как раз 0.005, а другие гораздо меньше, поэтому я выставила порог 0.004 и начала заново.
- После второй в списке выше порога появилось 3 новые записи.
- После третьей новых записей не появилось, но старые перегруппировались в списке.
- После четвертой появилось 2 новых записи.
- После пятой – 4 новых, причем 2 в середине и 2 в конце списка.
- После шестой – одна, причем с высоким Е-value (0.003), поэтому я решила понизить порог до 0.001
- После седьмой – новых не появилось, но они перегруппировались, причем запись с порогом 0.003 из предыдущей итерации теперь появилась где-то в середине списка с E-value 9e-11.
Из найденных белков большинство bcl-2-подобные белки, еще два с неизвестной функцией, но из млекопитающих, и один неизвестный почему-то из ланцетника ( XP_002610635.1), который здесь был единственным бесчерепным. Я провела следующую итерацию без него.
- После восьмой – новых записей не было, белок из ланцетника ушел на первую строчку в белках за порогом.
- После девятой – ничего не изменилось, остановила поиск.
Я скачала множественное выравнивание полученных последовательностей (опция "Multiple alignment" наверху списка результатов). При открытии выравнивания в JalView видно наличие нескольких консервативных участков. В натуральном масштабе выравнивание можно посмотреть на рисунке 1.
- Множественное выравнивание гомологов в формате fasta: Psi-Blast_Q3U7X3.fa
- Проект JalView (раскраска Percentage Identity): Psi-Blast_Q3U7X3.jar
Рис.1. Множественное выравнивание полученных программой PSI-BLAST гомологичных белков в JalView. Раскраска Percentage Identity