Содержит ли Swissprot послание инопланетян?
Для того, чтобы посчитать теоретическую встречаемость слова cigar, нужно перемножить доли всех аминокислот (получим 2,64е-7), затем умножить на общее количество аминокислот в банке UniProt (191 670 831). В результате, слово cigar встречается 50 раз теоретически.
Для выяснения реальной ситуации, когда cigar ищется как паттерн, был использован сервис ScanProsite портала ExPASy. Найдено 19 хитов в 19 последовательностях.
Почему же обнаружено в 2,5 раза меньше слов? Может инопланетяне не любят сигары?
Нахождение вероятных гомологов белка ybbD_BACSU в банке SwissProt с помощью паттернов
Паттерн - это общая формула функционально важных участков, выявленных на основе множественного выравнивания последовательностей белков, принадлежащих к хорошо изученному семейству. Паттерны позволяют быстро получить информацию о функциях неизвестного белка.
Так, на основе множественного выравнивания,для белка ybbD_BACSU были составлены несколько паттернов разной степени силы. Результаты поиска гомологов с помощью ScanProsite по паттернам представлены в таблице 1.
Характеристика паттерна | Паттерн | Количество найденных последовательностей | Количество последовательностей из ранее проделанного выравнивания |
Сильный | M-[TSCV]-[AS]-[HY]-x(2)-[FYVIL]-[PNED]-x(1,31)-L-[RK]-x(4)-[FY]-x(5)-[TS]-D | 45 | не все |
Слабый | R-x(4)-F-x(5)-T-D | 1171 | не все |
Табл.1.
Находилось очень мало последовательностей из множетсвенного выравнивания. Это я могу объяснить только тем, что для поиска сиквенсов для множетсвенного выравнивания использовалась база данных RefSeq, а поиск паттернов производился по базе SwissProt.
Нахождение всех мотивов PROSITE в последовательности белка ybbD_BACSU
Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности. В таблице 2 представлены мотивы белка ybbD_BACSU.
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи (паттерн, профиль) | Паттерн | Специфичность | Количество мотивов в белке |
PS00775 | GLYCOSYL_HYDROL_F3 | Glycosyl hydrolases family 3 active site | Паттерн | [LIVM](2)-[KR]-x-[EQKRD]-x(4)-G-[LIVMFTC]-[LIVT]-[LIVMF]-[ST]-D-x(2)-[SGADNIT] | Специфична | 1 |
PS51257 | PROKAR_LIPOPROTEIN | Prokaryotic membrane lipoprotein lipid attachment site profile | профиль | нет | Специфична | 1 |
Табл.2.