Для работы был выбрал белок с идентификатором B2V8C0. Это белок MinC, который определяет положение септы при делении клетки у бактерии Sulfurihydrogenibium sp. (strain YO3AOP1). Результаты работы PSI_BLAST для этой последовательности представлены в таблице ниже.
Таблица 1. Результат поисков PSI-BLAST.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 163 | Q88M41.2 | 0,004 | Q4US07.1 | 0,006 |
2 | 188 | Q9ZM51.1 | 6e-07 | A7H8E6.1 | 0,036 |
Выборка была стабилизирована уже после второй итерации, то есть список находок выше порога не поменялся по сравнению с предыдущей итерацией. E-value худшей находки выше порога и лучшей находки ниже порога сильно отличается, поэтому выборку можно считать семейством гомологичных белков.
Далее я выполнила QuickScan в Prosite для белка P0A6P1 из выбранного мной семейства (факторы элонгации трансляции EFTS). Нашлось два паттерна:
1) Elongation factor Ts signature 1. Сам паттерн выглядит так: L-R-x(2)-[ST]-[GSDNQ]-x-[GSA]-[LIVMF]-x(0,1)-[DENKAC]-x-K-[KRNEQS]-[AV]-L
.
2) Elongation factor Ts signature 2. Паттерн [ELAS]-[LIVMF]-[NVCKGST]-[SCVA]-[QE]-T-D-[FS]-[VLA]-[SAT]-[KRNLAQS]
.
Для дальнейшей работы я выбрала паттерн 2.
Этот паттерн был найден в использовавшемся мной при построении дерева выравнивании (рис. 1):
Рисунок 1. Исходный паттерн в выравнивании
Для данного выравнивания паттерн можно сделать более строгим, а именно: E-[LMV]-N-[CS]-[QE]-T-D-F-V-A-[KL]
.
Его также можно расширить на несколько консервативных позиций, так что в итоге он будет выглядеть так:
[GA]-[IVF]-[IL]-[ILV]-E-[LMV]-N-[CS]-[QE]-T-D-F-V-A-[KL]
(см. рис. 2)
Рисунок 2. Усовершенствованный паттерн в выравнивании
Поиск по Swiss-Prot для этого паттерна дал 129 находок. Сравнение списка из Swiss-prot со списком из Prosite с помощью скрипта дал следующие результаты:
* TP (True positives) = 107
* FP (False positives) = 32
* FN (False negatives) = 309
Как видно, уточнение паттерна привело к большому числу ненайденных белков.