PSI-BLAST

Для работы был выбрал белок с идентификатором B2V8C0. Это белок MinC, который определяет положение септы при делении клетки у бактерии Sulfurihydrogenibium sp. (strain YO3AOP1). Результаты работы PSI_BLAST для этой последовательности представлены в таблице ниже.

Таблица 1. Результат поисков PSI-BLAST.

Номер итерацииЧисло находок выше
порога (0,005)
Идентификатор худшей
находки выше порога
E-value этой находкиИдентификатор лучшей
находки ниже порога
E-value этой находки
1163Q88M41.20,004Q4US07.10,006
2188Q9ZM51.16e-07A7H8E6.10,036

Выборка была стабилизирована уже после второй итерации, то есть список находок выше порога не поменялся по сравнению с предыдущей итерацией. E-value худшей находки выше порога и лучшей находки ниже порога сильно отличается, поэтому выборку можно считать семейством гомологичных белков.

Prosite

Далее я выполнила QuickScan в Prosite для белка P0A6P1 из выбранного мной семейства (факторы элонгации трансляции EFTS). Нашлось два паттерна:

1) Elongation factor Ts signature 1. Сам паттерн выглядит так: L-R-x(2)-[ST]-[GSDNQ]-x-[GSA]-[LIVMF]-x(0,1)-[DENKAC]-x-K-[KRNEQS]-[AV]-L.

2) Elongation factor Ts signature 2. Паттерн [ELAS]-[LIVMF]-[NVCKGST]-[SCVA]-[QE]-T-D-[FS]-[VLA]-[SAT]-[KRNLAQS].

Для дальнейшей работы я выбрала паттерн 2.

Этот паттерн был найден в использовавшемся мной при построении дерева выравнивании (рис. 1):

Рисунок 1. Исходный паттерн в выравнивании

Для данного выравнивания паттерн можно сделать более строгим, а именно: E-[LMV]-N-[CS]-[QE]-T-D-F-V-A-[KL]. Его также можно расширить на несколько консервативных позиций, так что в итоге он будет выглядеть так: [GA]-[IVF]-[IL]-[ILV]-E-[LMV]-N-[CS]-[QE]-T-D-F-V-A-[KL] (см. рис. 2)

Рисунок 2. Усовершенствованный паттерн в выравнивании

Поиск по Swiss-Prot для этого паттерна дал 129 находок. Сравнение списка из Swiss-prot со списком из Prosite с помощью скрипта дал следующие результаты:

* TP (True positives) = 107

* FP (False positives) = 32

* FN (False negatives) = 309

Как видно, уточнение паттерна привело к большому числу ненайденных белков.


© Елизавета Минина 2018