PF06857- семейство, состоящее из белков дельта-субъединицы малонатдекарбоксилазы. Выравнивание seed содержит 117 после довательностей и идеально подходит по условию задания. Скачиваю выравнивание, перевожу в jvp. Нашла мотив D.GA.{7}R. Он встречается у 113 из 117 послеодовательностей с порогом идентичности 82%, его можно назвать высокопредставленным.
На сайте ProSite по базе данных SwissProt ищу мотив D-x-G-A-x(7)-R. Получаю 3709 находок!
Построила дерево в Jalview и увидела четко выделяющуются кладу (зеленая на рис 1), содержащую 31 белок. По этой кладе (рис 2) составляю новый мотив- GVV.SG.{2}E, который консервативен в 25 из 31 последовательности. Чтобя определить специфичность для клады осуществляю поиск мотива для всех клад и выясняю, что, действительно, мотивы встречается только в выделенной кладе и нигде больше.
Рис 1. Дерево для PF06857
Рис 2. Выделенная клада
Для работы я выбрала АС: О05886, белок организма из прошлого практикума, который является фактором активации снижения активности рибосом. Запускаю PSI-BLSAT по базе данных SwissProt, получаю следующие результаты:
Итерация | Находки выше порога | АС худшей находки выше порога | E-value худшей находки выше порога | АС лучшей находки ниже порога | E-value лучшей находки ниже порога |
---|---|---|---|---|---|
1 | 20 | P17161.1 | 0.003 | P17160.1 | 0.006 |
2 | 27 | P71346.3 | 1e-11 | - | - |
3 | 28 | P9WMA8.1 | 0.002 | - | - |
4 | 28 | P9WMA8.1 | 8e-20 | - | - |
5 | 28 | P9WMA8.1 | 7e-20 | - | - |
Со второй итерации находок с e-value ниже установленного нет. А после третьей количество находок не увеличивалось. Это особенность работы PSI-BLAST и показатель обособленности семейства.