Мотивы в белках. PSSM и паттерны. PSI-BLAST. Банк Prosite.

1. PSI-BLAST

С помощью белкового BLAST в NCBI (через сервис PSI-BLAST в базе данных Swiss-Prot) проводился поиск по AC O05886.
Данный белок был получен из Mycobacterium tuberculosis H37Rv - микобактерии туберкулеза (также известна как палочка Коха). Выбранный мной белок является фактором стимулирования гибернации рибосомы. Необходим для димеризации активных 70S рибосом в 100S рибосомы в стационарной фазе. 100S рибосомы трансляционно неактивны и иногда присутствуют при экспоненциальном росте.

Результаты итераций приведены в таблице ниже.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 16 P0AFX2.1
(Ribosome hibernation promoting factor)
3e-04 P26983.1
(Ribosome hibernation promoting factor)
0.001
2 20 P17161.1
(Ribosome hibernation promoting factor)
0.003 P17160.1
(Ribosome hibernation promoting factor)
0.005
3 28 P9WMA8.1
(Dormancy associated translation inhibitor)
0.003 B4L535.1
(Neuropathy target esterase sws)
0.073
4 28 P9WMA8.1
(Dormancy associated translation inhibitor)
3e-19 P33621.1
(Apolipoprotein A-IV)
0.014
5 29 P06727.3
(Apolipoprotein A-IV)
0.005 P33621.1
(Apolipoprotein A-IV)
0.016
6 33 P9WMA8.1
(Dormancy associated translation inhibitor)
8e-19 P02651.2
(Apolipoprotein A-IV)
0.019
7 37 P06728.3
(Apolipoprotein A-IV)
1e-09 O42363.1
(Apolipoprotein A-I)
0.028


К сожалению, стабилизации результатов итерации достигнуть не удалось (всего было проведено 20 итераций). Теоретически, на итерациях 3 и 4 список находок выше порога не изменился, однако список ниже существенно меняется. Кроме того, последующие итерации лишь увеличивают количество находок.
Стоит заметить, что лучшие находки принадлежат группе Ribosome hibernation promoting factor. Группы белков Apolipoprotein A-I и Apolipoprotein A-IV также встречаются достаточно часто.

Для получения стабилизированных результатов я решила провести поиск с меньшим значением E-value (0,00005).

Результат можно увидеть в таблице ниже:

Номер итерации Число находок выше порога (0,00005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 15 P19954.2
(Ribosome-binding factor PSRP1)
1e-12 P0AFX2.1
(Ribosome hibernation promoting factor)
3e-04
2 27 P71346.3
(Ribosome-associated factor Y)
6e-09 P9WMA8.1
(Dormancy associated translation inhibitor)
0.013
3 27 P24694.1
(Ribosome hibernation promoting factor)
3e-23 P9WMA8.1
(Dormancy associated translation inhibitor)
9e-04
4 27 P24694.1
(Ribosome hibernation promoting factor)
5e-24 P9WMA8.1
(Dormancy associated translation inhibitor)
7e-04
5 27 P24694.1
(Ribosome hibernation promoting factor)
4e-24 P9WMA8.1
(Dormancy associated translation inhibitor)
8e-04


Теперь стабилизация результата достигается к четвертой итерации. Между пороговыми значениями E-value разница минимум в 8 порядков. Среди всех находок наиболее ясно выделяется группа белков Ribosome hibernation promoting factor. Кроме нее дважды встречается Ribosome-associated factor Y и один раз - Ribosome-binding factor PSRP1, chloroplastic.
То есть, можно предположить, что данное семейство достаточно достоверное, "хорошее".


2. Prosite

Для выполнения Задания практикума я работала с семейством белков PTH (Пептидил-тРНК гидролаза). То есть, я искала мотив белка PTH_ECOLI в банке Prosite.
Было найдено два паттерна, длиной: 14 нулеотидов (местоположение 16 - 29) и 11 нулеотидов (местоположение 110 - 120).
Ниже представлена последовательность второго консенсусного паттерна, с которым я и буду работать:
[GS]-x(3)-H-N-G-[LIVM]-[KR]-[DNS]-[LIVMTC]
Предположительно, это Пептидил-тРНК-гидролаза 2.

На Рис.1 представлено выравнивание JalView. Синим выделены позиции паттерна. Возможно, к левому краю выделенной области стоит добавить аминокислоты на позициях с 110 по 111.

Рис.1 Выравнивание




Ниже представлен паттерн в наиболее строгом виде:
G-G-G-x-G-G-H-N-G-[LI]-[KR]-[DS]-[IT]
Список находок, полученных с помощью строгого паттерна можно посмотреть в файле. Кроме того, можно посмотреть и список, полученный из UniProt.
Число истинных находок (True positives, TP) = 224
Число ложных находок (False positives, FP) = 12
Число ненайденных (False negatives, FN) = 164





На Главную страницу
На страницу Семестра