Филогенетическое дерево

Таблица выбранных организмов

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 20 P17161.1 0.003 P17160.1 0.005
2 28 P9WMA8.1 0.003 B4L535.1 0.073
3 28 P9WMA8.1 3e-19 P33621.1 0.014
4 28 P9WMA8.1 2e-21 P06727.3 0.005
5 28 P9WMA8.1 3e-21 P06727.3 0.007
6 - - - - -

В последней итерации E-value худшей находки ниже порогового значения 0.005 и лучшей находки выше порогового значения различаются на 19 порядков, что позволяет сделать вывод о том, что найденное семейство довольно достоверное и "хорошее".


Мотивы и паттерны

Сначала для поиска паттернов в семействе белков TIG был найден мотив белка P0A850 (TIG_ECOLI) в банке Prosite. Для этого белка нашелся 1 паттерн длиной 89 нуклеотидов, местоположение 161 - 249, последовательность:
EDRVTIDFTGSVD-GEEFEGGKASD--FVLAMGQGRMIPGFEDGIKGHKAGEEFTIDVTF PEEYHAENLKgkaAKFAINLKKVEERELPELT.
Этот паттерн предположительно является FKBP пептидил-пролил цис/транс изомеразным доменом (PPIase).
Затем этот паттерн был найден в выравнивании белков и отредактирован.
Максимально возможная длина паттерна = 200 символов, поэтому были опробованы вариации паттернов.

1)[EGD]-[DKT]-[RQ]-[VILA]-[TVI]-[IMV]-[DN]-[FY]-x-G[KTS]-[VI]-[DNE]-[GD]-[EV]-[EA]-F-[EAD]-GG-x-[AD]-x-[DN]-F-V-L-[AEV]-[MIL]-G-[QS]-[GN]-[RTS]-[MF]-I-P-G-F-E-[DEAT]-[QAG]-I-[KVTL]-G-[HML]-[KG]-A-[GD]

2)[EGD]-[DKT]-[RQ]-[VILA]-[TVI]-[IMV]-[DN]-[FY]-x-G[KTS]-[VI]-[DNE]-[GD]-[EV]-[EA]-F-[EAD]-GG-x-[AD]-x-[DN]-F-V-L-[AEV]-[MIL]-G-[QS]-[GN]-[RTS]-[MF]-I-P-G-F-E

3)[EGD]-[DKT]-[RQ]-[VILA]-[TVI]-[IMV]-[DN]-[FY]-x-G[KTS]-[VI]-[DNE]-[GD]-[EV]-[EA]-F-[EAD]-GG-x-[AD]-x-[DN]-F-V-L-x(2)-G-[QS]-[GN]-[RTS]-[MF]-I-P-G-F-E-x(2)

4)G-[KTS]-[VI]-[DNE]-[GD]-[EV]-[EA]-F-[EAD]-G-G-x-[AD]-x-[DN]-F-V-L

Для каждого паттерна было посчитано число истинных находок (True positives, TP), то есть размер пересечения списков, число ложных находок (False positives, FP), то есть число тех белков, которые нашлись паттерном, но не входят в правильный список, и число ненайденных (False negatives, FN). В качестве рефересного списка использовались идентификаторы аннотированных белков семейства Proteobacteria (TIG_*). Результаты представлены в таблице 2, ссылка на excel файл с находками. Как видно из таблицы все находки являются истинными, ложных не найдено, однако довольно много ненайденных находок, причем с уменьшением длины паттерна их длина уменьшается. Можно сделать вывод, что данный паттерн чувствительный, но не специфичный.
TP FP FN
паттерн 1 34 0 381
паттерн 2 52 0 363
паттерн 3 57 0 358
паттерн 4 67 0 358


© Ириоглов Роман 2017-2018