Создание паттерна по выравниванию семейства белков |
На Главную Четвертый семестр |
|||
Паттерн из банка PrositeID заданного белка - RS8_BACSU.В банке Prosite находится паттерн PS00053 : [GE]-x(2)-[LIV](2)-[STY]-[ST]-{A}-x-G-[LIVM](2)-x(4)-[AG]-[KRHAYIL] Паттерн описывает семейство рибосомальных белоков S8, входящих в состав малой субъединицы рибосомы. В Escherichia coli, S8 связывается с 16S рибосомальной РНК. В это семейство, на основании сходства последовательностей, объединяяют белки архей, бактерий, высших и низших растений, животных и некоторых грибов. Паттерн описывает С-коцевой консервативный участок. С помощью данного паттерна находятся 948 последовательностеи из Swiss-Prot. 64 последовательности не находятся. Точность (Precision = true hits / (true hits + false positives)) : 99.58 % Чувствительность (Recall = true hits / (true hits + false negatives)) : 93.65 % Создание паттерна для поиска белков подсемейства из отдела FirmicutesВыборка белков бактерий из отдела Firmicutes : RS8_BACAN, RS8_BACSU, RS8_GEOKA, RS8_STAES, RS8_LISMO, RS8_LACAC, RS8_ENTFA, RS8_THETN, RS8_FINM2, RS8_STAA1.Контрольная выыборка (из других таксонов) : RS8_BIFAA (Actinobacteria), RS8_AMOA5, RS8_AZOPC(Bacteroidetes), RS8_CHLPN, RS8_CHLTR (Chlamydiae), RS8_GLOVI, RS8_PROM0 (Cyanobacteria),RS8_DESVV, RS8_RHIE6 (Proteobacteria), RS8_LEPIC (Spirochaetes). Выравнивание RS8.msf : ![]() Для посторения паттерна нужно выбрать позиции, консервативные внутри группы Firmicutes (отмечена синим) и неконсервативные внутри других групп. Рассмотрим участки 41 - 54 : [LK]-[RSKD]-[E]-[G]-[F]-[IV]-[RKD]-[GADN]-[FYV]-[NE]-[VEYF]-[TIAV]-[ED]-[D] 71 - 98 : [E]-[KR]-[V]-[I]-[ST]-[GN]-[LI]-[K]-[R]-[I]-[S]-[K]-[P]-[G]-[L]-[R]-[VNA]-[Y]-[AV]-[KRS]-[ASH]-x-[ED]-[VLM]-[P]-[KR]-[V]-[L] Оба паттерна находят однии и те же белки по всем бактериям и внутри таксона Firmicutes (85 и 64 находки соответственно). Однако, с помощью паттерна PS00053 в таксоне Firmicutes находится не только эти последовательности, но и другие (всего 160 находок). При ослаблении паттренов, количество находок, как верных, так и ошибочных, возрастало, и, в результате, не удалось достичь достаточного уровня совапдения списков находок. Вероятно, эти участки малоконсервативны, и по небольшой выборке белков трудно составить хороший паттерн. Для построения паттерна был выбран участок, состоящий из фрагмента домена из ProSite и соединенного с ним малоконсервативного участка. Из последовательностей, найденных по этом паттерну выбрали несколко неправильно найденых и добавили их в выравнивание. (отмечены зеленым). Несколко последовательностей, найденых PS00053 и не найденных данным паттерном также добавили в выравнивание (отмечены розовым). ![]() Полученый паттерн скорректировали исходя из нового выравнивания : 90 - 113 : [KRS]-{YT}-{KRA}-{K}-x-[P]-[KR]-[V]-[L]-[GN]-[G]-[L]-[G]-x-[A]-[LIV](2)-[S]-[T]-[S]-{SR} Находит 164 последовательности. TP = 146; FP = 18; FN = 14; Чувствительность TP/(TP+FN) = 91,25%; Селективность TP/(TP+FP) = 89,02%; |