Четвертый семестр

Создание паттерна по выравниванию семейства белков

  1. Паттерн рибосомального белка RS3_BACSU
  2. В банке ProSite был найден один паттерн для белка RS3_BACSU - PS00548 (RIBOSOMAL_S3):
    [GSTA]-[KR]-x(6)-G-x-[LIVMT]-x(2)-[NQSCH]-x(1,3)-[LIVFCA]-x(3)-[LIV]- [DENQ]-x(7)-[LMT]-x(2)-G-x(2)-[GS]
    также были найдены два профиля:
    PS50823 - профиль KH домена второго типа
    PS50084 - профиль КН домена первого типа

    Выше приведенный паттерн (PS00548) выделяет семейство рибосомальных белков S3 которые входят в состав малой субъединицы рибосомы. Известно, что в E.coli данные белки вовлечены в связывание инициаторной Meт-тРНК. Белки данной группы имеют длинну от 209 до 559 а.о.. в качестве паттерна был выбран консервативный участок C-концевого домена.
    Количество ложных находок: 0
    количество ненайденных последовательностей: 69
    Точность: 100%
    Чувствительность: 92,83%
  3. Создание паттерна для поиска белков подсемейства
  4. Были выбраны следующие белки:
    Из отдела Firmicutes: RS3_BACAN, RS3_BACSU, RS3_CLOB1, RS3_CLOTE, RS3_ENTFA, RS3_FINM2, RS3_GEOKA, RS3_LACAC, RS3_LACDA, RS3_LACLM, RS3_LISMO, RS3_PEDPA, RS3_STAA1, RS3_STAES, RS3_STRP1, RS3_STRPN, RS3_THETN
    Из отдела Spirochaetes (контрольная группа): RS3_BORAP, RS3_LEPBA, RS3_TREPS, RS3_TREDE, RS3_LEPIC, RS3_LEPIN, RS3_LEPBL, RS3_BORBZ, RS3_BORBU, RS3_BORGA
    Последовательности данных белков были скачаны и было создано выравнивание, включающее все последовательности - align.fasta
    В отделе Firmicutes паттерном PS00548 было найдено 136 записей, удовлетворяющих данному паттерну. При помощи созданного мною паттерна:
    [EIV]-[ER]-[ART]-[AIVS]-X(0,2)-[RNK]-X(7,9)-[ATG]-[KA]-[PK]-[GP]-[MGV]-X(0,1)-[VMI]-[IV]-X(3)-[GQ]
    было обнаружено 136 записей во всей базе данных. Сравнение с данными полученными при помощи паттерна PS00548 показало, что правильно идентифицировано - 128 последовательностей (см. pat.xls). 8 записей были определены неверно и 8 записей, найденных паттерном PS00548, не были обнаружены при использовании приведенного выше паттерна.
    Таким образом созданный мной паттерн обладает следующими характеристиками: Чувствительность (sensivity) = TP / (TP+FN)=94,11%
    Сверхпредсказание = FP/ (FP+TP)=5,88%
    Недопредсказание = FN / (TN+FN)=5,88%
    Этапы создания паттерна
    1. Выбрал участок в котором было наибольшее число консевативных позиций а.о. в белках из отдела Firmicutes и, при этом, не совпадающие с а.о. в контрольной группе(данный участок не совпал с участком С-кнцевого домена, по которому производилось построение паттерна PS00548, выбранный мной участок - в N-концевом фрагменте ~57-80 а.о.)
    2. (бежевый участок - выбранный для построения паттерна, зеленые позиции - наиболее консервативные позиции, использованные для создания паттерна)
    3. Построил сильный паттерн для данного участка (указав все возможные аминокислотные остатки в каждой из позиций)
    4. Убрал из данного паттерна наименее консервативные позиции
    5. Добавляя ненайденные или неправильно найденные белки доработал паттерн до конечного вида


    6. ©Анисенко Андрей