Паттерны и банк PROSITE

Содержит ли Swissprot послание инопланетян?

Предскажем встречаемость слова NIGHT в белковых последовательность базы данных SwissProt.Всего в этой базе содержится 191670831 аминокислот во всех последовательностях. В базе данных SwissProt встречаемость букв такова:
N - 4,06%
I - 5,96%
G - 7,07%
H - 2,27%
T - 5,34%
Таким образом, количество белком с таким словом предположительно равна 0,0406*0,0596*0,0707*0,0227*0,0534*191670831=39 штук.
В действительности же, это слово встречается 50 раз. Это может быть связано с тем, что встречаются белки разных штаммов и дублирующие друг друга записи в базе данных.

Поиск вероятных гомологов белка MntR Bacillus subtilis в банке SwissProt с помощью паттернов

Для осуществоения поиска были состалены сильный (со множеством условий) и слабый (с меньшим количеством условий) паттерны. Паттерны составлялись по этому выравниванию . Паттерны и результаты поиска представлены в таблице 1.

Таблица 1. Результат поиска гомологов белка MntR Bacillus subtilisс базе данных SwissProt с помощью паттернов
Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из выравнивания найдены? (если нет, то сколько)
Сильный [KRNH]-[HE]-[REGQN]-[ILTS]-[LIVTW]-[EKLSN]-x-[FY]-[LF]-x(1,20)-[TASIKVRQC]-[ILM]-x(4)-[EKNDSHT]-[NTELKI]-[AVL]-[RDMHAS]-x(2)-[AS]-[ECHD]-x(2)-E-H 5 0
Слабый x-[HE]-x(5)-[FY]-[LFVIA]-x(1,2)-x-[ILM]-x(6)-[AVLGI]-x(3)-[AS]-x(3)-E-Н 15 0

Такое распределение может быть связано с отсутствием белков из выравнивания в базе данных SwissProt, если вести поиск по бахк данных TrEMBL, то для сильного паттерна находится 1622 хита и 3734 для слабого паттерна.

Поиск всех мотивов PROSITE в последовательности белка MNTR_BACSU

Введем в левое поле ScanProsite идентификатор белка Р54512. Уберем галочку с пункта "Exclude patterns with a high probability of occurrence", чтобы видеть все распространенные мотивы.
Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (если это паттерн) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS50944 HTH_DTXR DtxR-type HTH domain профиль - специфична 1
PS00006 CK2_PHOSPHO_SITE Casein kinase II phosphorylation site Паттерн [ST]-x(2)-[DE] неспецифична 1
PS00008 MYRISTYL N-myristoylation site Паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} неспецифична 1
PS00005 PKC_PHOSPHO_SITE Protein kinase C phosphorylation site Паттерн [ST]-x-[RK] неспецифична 1
PS00009 AMIDATION Amidation site Паттерн x-G-[RK]-[RK] неспецифична 2
PS00007 TYR_PHOSPHO_SITE Tyrosine kinase phosphorylation site Паттерн [RK]-x(2)-[DE]-x(3)-Yor[RK]-x(3)-[DE]-x(2)-Y неспецифична 1


© Ходыкина Наталья,2012