Четвертый семестр
Создание паттерна по выравниванию семейства белков
[GSTA]-[KR]-x(6)-G-x-[LIVMT]-x(2)-[NQSCH]-x(1,3)-[LIVFCA]-x(3)-[LIV]- [DENQ]-x(7)-[LMT]-x(2)-G-x(2)-[GS] также были найдены два профиля: PS50823 - профиль KH домена второго типа PS50084 - профиль КН домена первого типа Выше приведенный паттерн (PS00548) выделяет семейство рибосомальных белков S3 которые входят в состав малой субъединицы рибосомы. Известно, что в E.coli данные белки вовлечены в связывание инициаторной Meт-тРНК. Белки данной группы имеют длинну от 209 до 559 а.о.. в качестве паттерна был выбран консервативный участок C-концевого домена. Количество ложных находок: 0 количество ненайденных последовательностей: 69 Точность: 100% Чувствительность: 92,83% Из отдела Firmicutes: RS3_BACAN, RS3_BACSU, RS3_CLOB1, RS3_CLOTE, RS3_ENTFA, RS3_FINM2, RS3_GEOKA, RS3_LACAC, RS3_LACDA, RS3_LACLM, RS3_LISMO, RS3_PEDPA, RS3_STAA1, RS3_STAES, RS3_STRP1, RS3_STRPN, RS3_THETN Из отдела Spirochaetes (контрольная группа): RS3_BORAP, RS3_LEPBA, RS3_TREPS, RS3_TREDE, RS3_LEPIC, RS3_LEPIN, RS3_LEPBL, RS3_BORBZ, RS3_BORBU, RS3_BORGA Последовательности данных белков были скачаны и было создано выравнивание, включающее все последовательности - align.fasta В отделе Firmicutes паттерном PS00548 было найдено 136 записей, удовлетворяющих данному паттерну. При помощи созданного мною паттерна: [EIV]-[ER]-[ART]-[AIVS]-X(0,2)-[RNK]-X(7,9)-[ATG]-[KA]-[PK]-[GP]-[MGV]-X(0,1)-[VMI]-[IV]-X(3)-[GQ] было обнаружено 136 записей во всей базе данных. Сравнение с данными полученными при помощи паттерна PS00548 показало, что правильно идентифицировано - 128 последовательностей (см. pat.xls). 8 записей были определены неверно и 8 записей, найденных паттерном PS00548, не были обнаружены при использовании приведенного выше паттерна. Таким образом созданный мной паттерн обладает следующими характеристиками: Чувствительность (sensivity) = TP / (TP+FN)=94,11% Сверхпредсказание = FP/ (FP+TP)=5,88% Недопредсказание = FN / (TN+FN)=5,88% Этапы создания паттерна ©Анисенко Андрей |