Создание паттерна по выравниванию семейства белков.

  1. Нахождение в банке Prosite паттерна одного из рибосомальных белков бактерий

    Дан белок RS10_BACSU.
    В банке Prosite найден один паттерн: PS00361 (RIBOSOMAL_S10):
    [AV]-x(3)-[GDNSR]-[LIVMSTAG]-x(3)-G-P-[LIVM]-x-[LIVM]-P-T
    Профили не нашлись.
    Рибосомальный белок S10 является одним из белков малой субъединицы рибосомы. Известно, что в E.coli S10 участвует в связывании тРНК с рибосомами. S10 составлен из ~100 а.о.
    Количество ложных находок: 1;
    Количество ненайденных последовательностей: 120;
    Точность: 99.87%;
    Чувствительность: 86.25%;
  2. Создание паттерна для поиска белков подсемейства

    Две выборки белков данного семейства:
    Firmicutes: RS10_BACAN, RS10_BACSU, RS10_CLOB1, RS10_ENTFA, RS10_FINM2, RS10_GEOKA, RS10_LACAC, RS10_LACDA, RS10_LACLM, RS10_LISMO;
    Actinobacteria (контроль): RS10_ACIC1, RS10_ARTAT, RS10_BIFA0, RS10_CORA7, RS10_CORDI, RS10_CORJK, RS10_FRAAA, RS10_KINRD, RS10_KOCRD, RS10_LEIXX;
    Создано выравнивание всех белков (из подсемейства и контрольных) в формате fasta.
    В GeneDoc создана группа белков из подсемейства Firmicutes(названия выделены жёлтым).



    Паттерн, найденный Prosite, выделен жёлтым.
    Новый созданный паттерн (сначала создан строгий паттерн на основе найденного с помощью Prosite, потомон был ослаблен; значительное увеличение паттерна одновременно с его ослаблением вело к уменьшению найденных белков, поэтому я остановилась на данном):
    [AV]-[KT]-x(3)-[AV]-x-[IV]-x-G-P-[IV]-P-L-P-T-x(5)-T
    Находит 143 последовательности для Firmicutes из 153. Для Actinobacteria: ничего не найдено. Если сравнить результаты работы моего паттерна [1] на всех бактериях и результаты работы паттерна Prosite [2] на таксоне Firmicutes, получается следующее:
    [1] [2]
    Всего находок 423 153
    Найдено неверно 423-153+10=280 (66,2%) 0
    Найдено верно 143 (93,5%) 153

    Процент совпадения: 143/423=33,8%
    Если увеличить паттерн до [AV]-[KT]-X(3)-[AV]-X-[IV]-X-G-P-[IV]-P-L-P-T-X(5)-T-[IV]-L, то находится меньше последовательностей (282), но найденных верно очень мало.

    1. © Anastasia Maslova, 2011