Из Pfam я выбрала домен PF00074 – панкреатическую рибонуклеазу. Выравнивание состоит из 134 последовательностей. Посмотрела на похожие последовательности. При redundancy treshold 90% ничего не выделилось, так что продолжаю работать со всеми последовательностями.
При окрашивании Clustal и identity treshold 100% выделяются 5 позиций, причём сближены только две из них (позиции 112-114). Так что понижаю identity treshold до 80% и буду описывать самый большой более или менее консервативный участок в районе позиции 50.
В выравнивании оказалось довольно мало мотивов. Самый подходящий мотив получился не очень консервативным. В нём много допущений разных букв:
C[KVP].{2}[NH][TYFS][FVI]
C-[KVP]-X(2)-[NH]-[TYFS]-[FVI]
Данный мотив был найден в 125 последовательностях из 134, все они располагаются друг под другом. Но очень консервативным его называть сложно: полностью консервативна только первая позиция, две позиции допускают любую букву.
По полученному мотиву осуществила поиск в PROSITE. Так как было установлено Retrieve complete sequences: V, показывается только 1000 последовательностей. Результат работы Prosite: 1020 hits in 1000 sequences. Получается мотив встречается 1020 раз в 1000 последовательностей, то есть в выравнивании мотив не будет находиться только друг под другом. Это подтверждает то, что мотив действительно не особо консервативный. Полученные последовательности загрузила в JalView и получила выравнивание программой Mafft. Выравнивание выглядит очень грустно. Фрагмент выравнивания приведён на изображении ниже, а полное выравнивание доступно по ссылке. Хоть мотив нашёлся 1020 раз, нужно ещё постараться, чтобы найти нужные участки. Думаю, это из-за того, что мотив слишком нестрогий.
В JalView с помощью NJ получила филогенетическое дерево. Его изображение с выбранной кладой, выделенной розовым цветом, приведено ниже:
Покрасила Clustal с identity treshold 100%. Даже при самом 100% получилось очень много консервативных позиций. Я решила остановиться на мотиве на позициях 26-39 (Рис 3).
Мотив я описала следующим образом: NNY[TI].[HN]CK.{2}NTFL
В кладе этот мотив встречается во всех последовательностях только друг под другом. В общем выравнивании для домена PF00074 мотив также встречается только 13 раз, то есть в последовательностях клады. Получается, я нашла мотив, специфичный для клады.
Я случайно выбрала AC P74518. Это фактор гибернации рибосом (переход рибосом в неактивное состояние в ответ на стресс), выделенный из бактерии Synechocystis sp. PCC 6803. Результаты запуска PSI-BLAST по базе Swiss-Prot представлены в таблице:
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 24 | P33987.1 | 3e-05 | – | – |
2 | 28 | P9WMA8.1 | 4e-06 | – | – |
3 | 28 | P24694.1 | 2e-20 | – | – |
4 | 28 | P24694.1 | 2e-20 | – | – |
5 | 28 | P24694.1 | 3e-20 | – | – |
Даже на первой итерации PSI-BLAST нет результатов с E-value ниже порога. Начиная с третьей итерации количество находок перестаёт увеличиваться. Значит семейство досаточно обособленно.