|
|
Паттерны и банк PROSITE
Мне попалось слово CIDER. Теоретически, это слово должно встретиться нам (вычислил с помощью перемножения вероятностей встречи каждой буквы друг с другом и с количеством аминокислот)
0,0137 X 0,0596 X 0,0545 X 0,0675 X 0,0553 x 191670831 = 32 раза.
В реальности это слово встречается 17 раз. Из-за того, что слово встречается не чаще, чем в теории, можно преположить, что слово не несет какой-либо функциональной нагрузки.
Далее были созданы сильный и слабый паттерны для поиска гомологов изучаемого белка (SCO1_BACSU). Паттерны были составлены для данной выборки: prositemultialign.jar
Таблица N1. Результаты поиска гомологов белков множественного выравнивания по слабому и сильному паттернам. Столь малое количество находок объясняется тем, что почти все белки были выбраны случайно.
Характеристика паттерна |
Паттерн |
В скольких последовательностях банка Swiss-Prot и Trembl найден мотив, удовлетворяющий паттерну |
Сколько последовательностей из моего выравнивания найдено |
Сильный |
[FWV]-X-[LFA]-X(1,4)-[DTEN]-X(1,3)-G-X(11,14)-[LVIAF]-[LIVAF ]-X-[FW]-X(4,10)-[CT]-[PT]-X(5)-[LVAIMF]-X(8,18)-[VFALIY]-X( 2)-[VLI]-[FGASITV]-[ILVF]-[TSA]-X(1,6)-D-X(7,15)-[YFW]. |
41 |
2 |
Слабый |
[FWMTIV]-X-[LFA]-X(1,4)-[DTEN]-X(1,3)-G-X(11,14)-[LVIAF]-[LI VAF]-X-[FLYW]-X(4,10)-[CT]-[PT]-X(5)-[LVAGIMF]-X(8,18)-[VFGA LIY]-X(2)-[VGLAI]-[FGASITV]-[ILGAVF]-[TSA]-X(1,6)-[DE]-X(7,1 5)-[YFW] |
83 |
2 |
Таблица N2. Мотивы в Prosite для последовательности моего белка.
Идентификатор документа Prosite (AC) |
Название мотива |
Краткое описание мотива |
Тип подписи (паттерн, профиль) |
Паттерн (если это паттерн) |
Специфична ли подпись? |
Сколько мотивов нашлось в белке? |
PS51257. |
PROKAR_LIPOPROTEIN. |
Prokaryotic membrane lipoprotein lipid attachment site. |
Профиль. |
- |
Да |
1 |
PS51352. |
THIOREDOXIN_2. |
Thioredoxin domain. |
Профиль. |
- |
Да |
1 |
|
|
|