Паттерны и банк PROSITE

Последовательность белка - дело случая?

Чтобы показать, что последовательности белков не возникают исключительно случайным путем, можно определить частоту встречаемости какого-нибудь слова в последовательностях. Это слово должно быть составлено из букв, совпадающих с буквами, которые обозначают аминокислоты. Затем эту частоту нужно сравнить с реальной частотой встречаемости такого слова в последовательностях белков с помощью банка Prosite .
Для того, чтобы теоретически определить количество слов "align", встречающихся в банке SwissProt, нужно знать частоты встречаемости нужных аминокислотных остатков (A = 8.25%, L = 9.66%, I = 5.96%, G = 7.07%, N = 4.06%) и их общее количество в банке (191670831). Далее частоты нужно перемножить между собой. Получится частота встречаемости слова, которая умножается на общее количество букв в банке.
8.25*9.66*5.96*7.07*4.06*10(-10)*191670831 = 261
Поиск в Prosite показал, что слово "align" встречается в SwissProt 129 раз, и 58 из них определил как случайные. Различие теоретической и реальной величины говорит о том, что количество и порядок аминокислот в различных белках не всегда являются делом случая. Для слова "align" реальное количество меньше, чем теоретическое, из чего можно сделать вывод, что это не часто встречающееся слово, и доля частот встречаемости его букв приходится на более распространенные слова, содержащие эти же буквы.

Поиск вероятных гомологов белка YOAJ_BACSU в банке SwissProt с помощью паттернов

Паттерн можно описать как запись участка последовательности с различными степенями консервативности общую для какого-либо множественного выравнивания. С помощью составления паттернов можно искать гомологичные белки и посредством регуляции "строгости" паттерна получать выборки с той или иной степенью гомологии. На основе множественного выравнивания, изображение которого представлено на рисунке 1, были составлены три паттерна различной силы для выполнения поиска. Результаты поиска представлены в таблице 1.


Рис.1. Множественное выравнивание эукариотических и прокариотических гомологов белка YOAJ_BACSU.

Таблица 1. Результаты поиска вероятных гомологов белка YOAJ_BACSU в банке SwissProt с помощью паттернов.

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Количество последовательностей из выравнивания
Сильный [ILVF]-D-L-[FYSNAH]-X(2)-A-F-X(2)-[ILV]-X(0,2)-[AGDENT]-X(4)-[GS]-X-[IVLFTY] 14 1
Средний X-D-L-X(3)-A-F-X(2)-[ILV]-X(0,2)-[GSADE]-X(4)-G-X-[ILV] 35 1
Слабый [PG]-X(1,8)-[TGACIVLS]-[AG]-[ILMV]-[NGSA]-X(3)-[WYFL]-X(2,6)-[AGS]-X(2)-[ACS]-G 2052 1

Как и следовало ожидать, с "ослаблением" паттерна растет число находок. Однако, во всех трех случаях была найдена всего одна последовательность из выравнивания - последовательность исследуемого белка YOAJ_BACSU. Такой результат нетрудно объяснить. Выравнивание проводилось для последовательностей из банка Refseq, который содержит белки из разных источников, соответственно в нем их намного больше, чем в SwissProt, для которого производился поиск. Более того, SwissProt содержит аннотированные последовательности, и чаще это будут белки из значимых для человека организмов. Например, как в полученном мной результате, из дикого лимона, риса, резуховидки Таля. Белки этих организмов могли не попасть в выравнивание из-за слишком низкого сходства в других участках последовательности.

Поиск мотивов PROSITE в последовательности белка YOAJ_BACSU

Мотивы - это определенные высоко консервативные участки последовательности белка, имеющие какую-либо функцию. В банке Prosite содержится информация о различных мотивах, и можно организовать поиск по банку, чтобы обнаружить мотивы в интересующем нас белке.
Результаты поиска представлены в таблице 2. Следует отметить, что специфичных мотивов для белка обнаружено не было.

Таблица 2. Результаты поиска мотивов в последовательности белка YOAJ_BACSU.

Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи Паттерн Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00008 MYRISTYL Сайт N-миристоилирования Паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} неспецифична 5
PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеинкиназы II Паттерн [ST]-x(2)-[DE] неспецифична 2
PS00001  ASN_GLYCOSYLATION  Сайт N-гликозилирования Паттерн N-{P}-[ST]-{P}  неспецифична 1
PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования протеинкиназы С Паттерн [ST]-x-[RK]  неспецифична 4

© Анисимова Александра, 2013