№ итерации |
Число находок выше порога (0.005) |
AC худшей находки |
E-value худшей находки |
AC лучшей находки ниже порога |
E-value лучшей находки ниже порога |
1 |
24 |
3e-05 |
P24694.1 |
0.017 |
|
2 |
28 |
3e-06 |
Q0SUG8.2 |
0.21 |
|
3 |
28 |
P24694.1 |
2e-20 |
Q0SUG8.2 |
1.3 |
4 |
28 |
P24694.1 |
2e-20 |
0.007 |
|
5 |
28 |
P24694.1 |
3e-20 |
0.006 |
В ходе последних четырёх итераций количество находок не изменялос, однако поменялось месторасположение находок в общем списке. Во второй итерация P33987.1 (худшая находка выше порога первой итерации)оказалась пятой с конца, в то же время P24694.1 (худшая находка выше порога трёх последних итераций) была третьей по счету с конца списка хороших находок; P9WMA8.1 (худшая находка выше порога второй итерации) стала третьей по счету снизу списка хороших находок трёх последних итераций. Для четвёртой и пятой итерации худшая находка выше порога лучшая находка ниже порога остались неизменными, поменялось только их e-value (с 2e-20 на 3e-20 и c 0,007 на 0,006 соответственно). Таким образом, разница в e-value между худшими находками выше порогового значения и лучшими ниже него остается достаточно большой (0,006 = 6e-3), чтобы можно было утверждать, что найденные белковые последовательности принадлежат семейству гомологичных белков.
Для выполнения задания необходимо было в банке Prosite произвести поиск паттернов, описывающих семейство белков из практикума 2, для выполнения которого мною был выбран фактор терминации трансляции 1 (RF1, release factor 1) - белок, участвующий в терминации синтеза белков на мРНК, который узнает стоп-кодоны UAA и UAG. Он имеет тРНК-подобную форму, а также консервативные мотивы, узнающие стоп-кодоны и катализирующие атаку водой пептидной связи пептидил-тРНК.
Для поиска паттернов в семействе белков RF1 в банке Prosite я нашла мотив белка RF1_RHIEC (Q2K3T1):
Рисунок 1.
Для этого белка нашелся только один паттерн RF1_PROK_I (Prokaryotic-type class I peptide chain release factors signature):
Рисунок 2.
Ниже можно увидеть множественное выравнивание, выровненное с помощью сервиса Muscle, последовательностей RF1 организмов, выбранных мною при выполнении практикума 2:
Рисунок 3.
В полученном выравнивании был выделен блок с консенсусным паттерном, представленным в описании к семейству белков RF1 (PROSITE documentation PDOC00607 [for PROSITE entry PS00745]):
[ARH]-[STA]-x-G-x-G-G-Q-[HNGCSY]-[VI]-N-x(3)-[ST]-[AKG]-[IV]
Рисунок 4. Блок выравнивания с консенсусным паттерном
Основываясь на множественном выравнивани, заявленный консенсусный паттерн был отредактирован, в следствие чего стал более строгим:
R-[SA]-S-G-A-G-G-Q-H-[VI]-N-[KT]-T-D-S-A-[IV]
Затем, также на основании множественного выравнивания, полученный ранее более строгий паттерн был дополнен:
D-[LI]-R-I-D-T-[FMY]-R-[SA]-S-G-A-G-G-Q-H-[VI]-N-[KT]-T-D-S-A-[IV]-R-[ILV]-T-H-L-P-T-G-[IL]-[VI]-V-[TE]-[CS]
Рисунок 5. Блок выравнивания с окончательным вариантом паттерна
Используя более строгий дополненный вариант паттерна, я провела поиск белков протеобактерий семейства RF1 в prosite согласно указаниям по выполнению практикума. Полученные находки я сопоставила со списком находок из базы данных Uniprot, результаты сравниния приведены в таблице 2:
Таблица 2.
всего найдено |
уникальны (не встречаются во втором списке) |
|
белки, найденные строгому по паттерну |
77 |
2 |
белки в Uniprot |
408 |
333 |
Средствами Excel были проанализированы оба списка: белков, найденных
построенным паттерном, и белков протеобактерий из семейства RF1. Результаты
доступны по ссылке.
Число истинных находок (True positives, TP), то есть размер пересечения
списков, составило 75, число ложных находок (False positives, FP), то есть
число тех белков, которые нашлись паттерном, но не входят в правильный
список равно 2, и число ненайденных (False negatives, FN) равно 333.
Число находок по паттерну 77
Число правильных находок 408
True positives 75
False positives 2
False negatives 333
© Енькова Анна, 2018 |