Мотивы в белках


Поиск консервативных участков в выравнивании

Из Pfam я выбрала домен PF00074 – панкреатическую рибонуклеазу. Выравнивание состоит из 134 последовательностей. Посмотрела на похожие последовательности. При redundancy treshold 90% ничего не выделилось, так что продолжаю работать со всеми последовательностями.

При окрашивании Clustal и identity treshold 100% выделяются 5 позиций, причём сближены только две из них (позиции 112-114). Так что понижаю identity treshold до 80% и буду описывать самый большой более или менее консервативный участок в районе позиции 50.

В выравнивании оказалось довольно мало мотивов. Самый подходящий мотив получился не очень консервативным. В нём много допущений разных букв:

C[KVP].{2}[NH][TYFS][FVI]

C-[KVP]-X(2)-[NH]-[TYFS]-[FVI]

Данный мотив был найден в 125 последовательностях из 134, все они располагаются друг под другом. Но очень консервативным его называть сложно: полностью консервативна только первая позиция, две позиции допускают любую букву.

По полученному мотиву осуществила поиск в PROSITE. Так как было установлено Retrieve complete sequences: V, показывается только 1000 последовательностей. Результат работы Prosite: 1020 hits in 1000 sequences. Получается мотив встречается 1020 раз в 1000 последовательностей, то есть в выравнивании мотив не будет находиться только друг под другом. Это подтверждает то, что мотив действительно не особо консервативный. Полученные последовательности загрузила в JalView и получила выравнивание программой Mafft. Выравнивание выглядит очень грустно. Фрагмент выравнивания приведён на изображении ниже, а полное выравнивание доступно по ссылке. Хоть мотив нашёлся 1020 раз, нужно ещё постараться, чтобы найти нужные участки. Думаю, это из-за того, что мотив слишком нестрогий.

alignment
Рис 1. Фрагмент выравнивания последовательностей, найденных с помощью Prosite
Мотив, специфичный для одной клады филогенетического дерева

В JalView с помощью NJ получила филогенетическое дерево. Его изображение с выбранной кладой, выделенной розовым цветом, приведено ниже:

tree
Рис 2. Филогентическое дерево по выравниванию seed PF00074. Выбранная клада выделена розовым. Она включает в себя 13 последовательностей

Покрасила Clustal с identity treshold 100%. Даже при самом 100% получилось очень много консервативных позиций. Я решила остановиться на мотиве на позициях 26-39 (Рис 3).

motif
Рис 3. Специфичный для клады мотив

Мотив я описала следующим образом: NNY[TI].[HN]CK.{2}NTFL

В кладе этот мотив встречается во всех последовательностях только друг под другом. В общем выравнивании для домена PF00074 мотив также встречается только 13 раз, то есть в последовательностях клады. Получается, я нашла мотив, специфичный для клады.

PSI-BLAST

Я случайно выбрала AC P74518. Это фактор гибернации рибосом (переход рибосом в неактивное состояние в ответ на стресс), выделенный из бактерии Synechocystis sp. PCC 6803. Результаты запуска PSI-BLAST по базе Swiss-Prot представлены в таблице:

Таблица 1. Результат поиска PSI-BLAST по AC P74518
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 24 P33987.1 3e-05
2 28 P9WMA8.1 4e-06
3 28 P24694.1 2e-20
4 28 P24694.1 2e-20
5 28 P24694.1 3e-20

Даже на первой итерации PSI-BLAST нет результатов с E-value ниже порога. Начиная с третьей итерации количество находок перестаёт увеличиваться. Значит семейство досаточно обособленно.