Для выполнения данного задания был выбран случайный идентификатор белковой последовательности - Q7VDL - белок MinC, ингибитор деления клеток, который блокирует образование круглых полярных Z септ, характерный для вида Prochlorococcus marinus [1]. Далее с помощью программы BLASTP в NCBI производился поиск гомологов по банку Swiss-Prot с помощью алгоритма PSI-BLAST, позволяющий составить семейство гомологов белка. Результат данного поиска собран в Таблицу 1.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 146 | Q9AG20.1 | 0.005 | A8GFG7.1 | 0.005 |
2 | 188 | B6JKX0.1 | 7e-08 | A7H8E6.1 | 0.062 |
3 | 188 | Q9ZM51.1 | 2e-12 | A7H8E6.1 | 0.013 |
После проведения 3 итераций поиска выборка была стабилизирована, то есть список находок выше порога не поменялся по сравнению с предыдущей итерацией. Разница между E-value худшей находки выше порога (0.005) и лучшей находки ниже порога сильно отличается, следовательно, такую выборку можно считать семейством гомологичных белков.
Для выполнения данного задания рассматривался белок енолаза, который катализирует обратимую конверсию 2-фосфоглицерата в фосфоенолпируват. Он необходим для деградации углеводов посредством гликолиза [2]. Ранее с этим белком проводилось построение дерева для 8 видов бактерий, здесь же с помощью банка Prosite производился поиск паттернов в семействе енолаза на базе последовательности с идентификатором ENO_YERPE, в результате был найден один паттерн с идентификатором PS00164.
ILIKFNQIGSLTET |
Консенсусный паттерн представлен так:
[LIVTMS]-[LIVP]-[LIV]-[KQ]-x-[ND]-Q-[INV]-[GA]-[ST]-[LIVM]-[STL]-[DERKAQG]-[STA] |
Далее с помощью программы Jalview было открыто выравнивание энолаз 18 видов бактерий, и в этом выравнивании был найден искомый паттерн, который показан на Рис. 1.
После этого проводилась работа, которая позволила сделать паттерн более строгим, в результате его можно представить таким образом для данного выравнивания:
[LIM]-L-[IV]-K-[VFI]-N-Q-I-G-[ST]-L-[ST]-E-T-[LF] |
Паттерн был расширен на одну консервативную позицию и стал более определенным, результат представлен на Рис.2
Далее производился поиск модифицированного паттерна в банке Swiss-Prot, в результате чего было найдено 513 находок. В то время как всего в Swiss-Prot аннотировано 396 енолаз для Proteobacteria. Затем с помощью программы Python были подсчетаны некоторые статистические характеристики этих двух выборок:
TP (True positives) = 291
FP (False positives) = 222
FN (False negatives) = 105
Помимо этого, осуществлялся поиск немодифицированного паттерна в банке Swiss-Prot, в результате число находок составило 908, что не удивительно, так как предложенный Prosite паттерн менее строгий, чем модифицированный, для него так же была подсчитана статистика с помощью Python:
TP (True positives) = 395
FP (False positives) = 513
FN (False negatives) = 1
Можно заметить, что менее строгий поиск обеспечивает большее число истинных находок, однако и увеличивает число ложноположительных результатов, то есть находит те белки, которые не входят в семейство енолаз, но в то же время уменьшает число ненайденных совсем енолаз, обеспечиваемое истинными находками. Скрипт и все материалы для подсчета доступны в архиве.
[1]Q7VDL2 [2]Enolase |