Мотивы в белках. PSSM и паттерны. PSI-BLAST. Банк Prosite

PSI-BLAST

В рамках задания было предложено выбрать случайный идентификатор из списка. С помощью random.org был выбран белок B2V8C0. Это белок бактерии Sulfurihydrogenibium sp. YO3AOP1, который является ингибитором деления клеток и блокирует образование полярных Z-септумов, а также предотвращает полимеризацию белка FtsZ. [ссылка на источник в ncbi].
Поиск сервером PSI-BLAST (Position-Specific Iterated BLAST) в базе Swiss-Prot дал следующие результаты:

Таблица 1. Данные PSI-BLAST

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 163 Q88M41.2 0,004 Q4US07.1 0,006
2 188 Q9ZM51.1 6e-07 A7H8E6.1 0,036

Как можно видеть, результат удалось стабилизировать после второй итерации (список находок далее, в сравнении с предыдущей, выше порога не поменялся - выше 188). По разнице в E-value между "лучшей" и "худшей" находкой можно судить о гомологичности белков. В данном случае, эта разница достаточно большая, так что есть хорошая вероятность того, что эти белки - гомологичные.

Prosite

В банке Prosite путем QuickScan для белка из семейства ENO с мнемоникой ENO_BRADU (Q89KV6) был найден 1 паттерн "ILIKvNQIGTLTET" длиной 13 нуклеотидов с местоположением 334-347. Этот паттерн является енолазой. Этот паттерн был найден в выравнивании белков.

Рисунок 1.Найденный паттерн в выравнивании белков

[ссылка на проект в jalview]
[ссылка на выравнивание в формате fasta]

Для данного выравнивания паттерн можно сделать более строгим, то есть: "[IM]-L-[IV]-K-[VF]-N-Q-I-G-[ST]-L-T-E-T", а также при желании расширить его на несколько консервативных позиций:"N-S-[IM]-L-[IV]-K-[VF]-N-Q-I-G-[ST]-L-T-E-T-L". На рисунке 2 мы можем видеть, как паттерн тогда будет выглядеть.

Рисунок 2. Усовершенствованный паттерн в выравнивании белков

[ссылка на проект в jalview]
[ссылка на выравнивание в формате fasta]

Поиск ScanProsite дал 227 совпадений. В то время, как поиск в Swiss-Prot - 849. Результаты сравнения списков приведены в таблице 2.

Таблица 2. Результаты сравнения списков

Паттерн True positives, TP False positives, FP False negatives, FN
N-S-[IM]-L-[IV]-K-[VF]-N-Q-I-G-[ST]-L-T-E-T-L 223 4 626