Для выполнения данного задания был выбран случайный идентификатор белковой последовательности - Q7VDL - белок MinC, ингибитор деления клеток, который блокирует образование круглых полярных Z септ, характерный для вида Prochlorococcus marinus [1]. Далее с помощью программы BLASTP в NCBI производился поиск гомологов по банку Swiss-Prot с помощью алгоритма PSI-BLAST, позволяющий составить семейство гомологов белка. Результат данного поиска собран в Таблицу 1.

Таблица 1. Результат поисков PSI-BLAST.
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1146Q9AG20.10.005A8GFG7.10.005
2188B6JKX0.17e-08A7H8E6.10.062
3188Q9ZM51.12e-12A7H8E6.10.013

После проведения 3 итераций поиска выборка была стабилизирована, то есть список находок выше порога не поменялся по сравнению с предыдущей итерацией. Разница между E-value худшей находки выше порога (0.005) и лучшей находки ниже порога сильно отличается, следовательно, такую выборку можно считать семейством гомологичных белков.

Prosite

Для выполнения данного задания рассматривался белок енолаза, который катализирует обратимую конверсию 2-фосфоглицерата в фосфоенолпируват. Он необходим для деградации углеводов посредством гликолиза [2]. Ранее с этим белком проводилось построение дерева для 8 видов бактерий, здесь же с помощью банка Prosite производился поиск паттернов в семействе енолаза на базе последовательности с идентификатором ENO_YERPE, в результате был найден один паттерн с идентификатором PS00164.

ILIKFNQIGSLTET

Консенсусный паттерн представлен так:

[LIVTMS]-[LIVP]-[LIV]-[KQ]-x-[ND]-Q-[INV]-[GA]-[ST]-[LIVM]-[STL]-[DERKAQG]-[STA]

Далее с помощью программы Jalview было открыто выравнивание энолаз 18 видов бактерий, и в этом выравнивании был найден искомый паттерн, который показан на Рис. 1.

Рис. 1. Паттерн в выравниваниях.

После этого проводилась работа, которая позволила сделать паттерн более строгим, в результате его можно представить таким образом для данного выравнивания:

[LIM]-L-[IV]-K-[VFI]-N-Q-I-G-[ST]-L-[ST]-E-T-[LF]

Паттерн был расширен на одну консервативную позицию и стал более определенным, результат представлен на Рис.2

Рис. 2. Модифицированный паттерн в выравниваниях.

Далее производился поиск модифицированного паттерна в банке Swiss-Prot, в результате чего было найдено 513 находок. В то время как всего в Swiss-Prot аннотировано 396 енолаз для Proteobacteria. Затем с помощью программы Python были подсчетаны некоторые статистические характеристики этих двух выборок:

  1. TP (True positives) = 291

  2. FP (False positives) = 222

  3. FN (False negatives) = 105

Помимо этого, осуществлялся поиск немодифицированного паттерна в банке Swiss-Prot, в результате число находок составило 908, что не удивительно, так как предложенный Prosite паттерн менее строгий, чем модифицированный, для него так же была подсчитана статистика с помощью Python:

  1. TP (True positives) = 395

  2. FP (False positives) = 513

  3. FN (False negatives) = 1

Можно заметить, что менее строгий поиск обеспечивает большее число истинных находок, однако и увеличивает число ложноположительных результатов, то есть находит те белки, которые не входят в семейство енолаз, но в то же время уменьшает число ненайденных совсем енолаз, обеспечиваемое истинными находками.
Скрипт и все материалы для подсчета доступны в архиве.

Источники:

[1]Q7VDL2
[2]Enolase


©Шпудейко Полина, 2016 год