Паттерны и банк PROSITE
Содержит ли Swissprot послание инопланетян?
Теоретическое предсказание: В этом разделе мы узнаем сколько раз слово "liver", которое гипотетически можно составить из однобуквенных названий аминокислот, встречается в базе данных Uniprot. Сначала предскажем теоретически ожидаемую величину: перемножаем доли каждой из пяти аминокислот в базе (результат: 1,48*10-6) и умножаем полученную вероятность на объём всего банка (191 670 831 остатков). Получилось число 293 - именно такое число раз мы ожидаем встретить liver среди всех последовательностей Uniprot.Какова же ситуация на самом деле? Для этого произведём поиска слова "liver" как паттерна - записи, созданной на основе множественного выравнивания сходных белков, которая в краткой форме характеризует участок белковой последовательности, учитывая ключевые консервативные аминокислотные остатки и расстояния между ними. Воспользуемся сервисом ScanProsite портала ExPASy для поиска интересующего паттерна. Результат поиска: 200 паттернов в 200-х последовательностях банка Uniprot.
Выводы: Паттерн встречается с меньшей частотой, чем ожидалось. Вероятно, это можно объяснить тем, что первые три аминокислоты паттерна имеют алифатические радикалы, а после них идут отрицательно заряженный глутамат и положительно заряженный аргинин. Такая композиция менее вероятна, чем можно предположить статистически. Или же просто инопланетяне не очень любят печёнку.
Нахождение вероятных гомологов белка CISY_BACSU с использованием паттернов
Для поиска гомологов были созданы два паттерна, которые были условно названы "сильный" и "слабый" по тому, насколько сильное ограничение накладывается на искомую последовательность. Таким образом, предполагается, что "слабый" паттерн даст не только гомологи моего белка, но и другие белки, содержащие некоторую группу аминокислот, расположенных определённым образом. От "сильного" же паттерна ожидается нахождение всех последовательностей исходного белка, а кроме того, близких его гомологов, в выборку (см. практикум 8) не вошедших. Исходные паттерны и краткие результаты представлены в таблице 1.Таблица 1. Результаты поиска гомологов с использованием паттернов "различной силы"
Характеристика | Паттерн | Количество послед. в Swiss-Prot | Полнота нахождения последовательностей из выборки | Количество случайных совпадений на 100'000 послед. |
"Слабый" паттерн | G-x-G-x(8)-D-P | 2566 | не все (*) | 524 |
"Сильный" паттерн | N-x-[ED]-x(3)-[AGS]-x(20,21)-R-x(2)-G-x(6)-[EWI]-x(8,10)-R-P | 101 | не все (*) | 0.35 |
(*) - в обоих случаях это связано в том числе и с тем, что поиск гомологов для формирования выборки проводился по базе RefSeq, а сейчас мы работаем только в Swiss-Prot.
И действительно, белки, найденные с использованием сильного паттерна, безусловно являются его гомологами. Список найденных белков представлен в ТАБЛИЦЕ 2. В ней жёлтым цветом выделен исходный белок, розовым случайно проскочивший единственный несходный по функции белок, а синим показан обширный блок цитратсинтаз из бактерий рода Rickettsia. Кроме того, стоит отметить, что большинство белков в таблице либо принадлежат бактериям, либо относятся к митохондриальным или пероксисомальным белкам эукариот.
Поиск всех мотивов PROSITE в последовательности CISY_BACSU
В этом разделе последовательность белка была проанализирована на наличие специфических мотивов. Результаты поиска и описание каждого из обнаруженных мотивов представлено в таблице 3.Таблица 3. Мотивы в последовательности белка CISY_BACSU
Prosite AC | Название мотива | Краткое описание | Тип подписи | Паттерн | Специфичность | Количество мотивов |
PS00480 | ACT_SITE | Активный сайт фермента | Паттерн | G-[FYAV]-[GA]-H-x-[IV]-x(1,2)-[RKTQ]-x(2)-[DV]-[PS]-R | Специфична | 1 |
PS00006 | CK2_PHOSPHO_SITE | Сайт фосфорилирования казеинкиназой II | Паттерн | [ST]-x(2)-[DE] | Неспецифична | 7 |
PS00001 | ASN_GLYCOSYLATION | Сайт N-гликозилирования | Паттерн | N-{P}-[ST]-{P} | Неспецифична | 2 |
PS00004 | CAMP_PHOSPHO_SITE | Сайт фосфорилирования цАМФ- и цГМФ-зависимых киназ | Паттерн | [RK](2)-x-[ST] | Неспецифична | 1 |
PS00008 | MYRISTYL | Сайт N-миристоилирования | Паттерн | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} | Неспецифична | 3 |
PS00005 | PKC_PHOSPHO_SITE | Сайт фосфорилирования протеинкиназы С | Паттерн | [ST]-x-[RK] | Неспецифична | 2 |
PS00009 | AMIDATION | Сайт амидирования | Паттерн | x-G-[RK]-[RK] | Неспецифична | 1 |
Гомологичность обнаруженных с использованием паттернов белков
Для всех белков, описанных в таблице 2, (см. выше) были получены последовательности в формате FASTA, на основе которых было построено выравнивание с использованием программы MUSCLE. Результат выравнивания, окрашенный по схеме Clustal-X, представлен на рисунке 1.Рис. 1 Выравнивание CISY_BACSU с его гомологами, найденными с использованием паттернов |
Выводы: Белки хорошо выравниваются по всей длине, образуя чётко выделяющиеся блоки с высокой степенью консервативности, что наряду с единством выполняемой функции может говорить об их гомологичности.
Сравнение гипотетического числа мотивов с реальным числом найденных последовательностей
Для паттерна N-x-[ED]-x(3)-[AGS]-x(20,21)-R-x(2)-G-x(6)-[EWI]-x(8,10)-R-P было посчитано число теоретических последовательностей, которые могут ему соответствовать. Результат: всего такому паттерну могут соответствовать 18*2043 последовательностей, при том что в реальных белках нашлась только лишь 101, что говорит, во-первых, о консервативности участка, по которому строился паттерн (лигандсвязывающий участок), а, во-вторых, о том, что многие комбинации в таком участке являются запрещёнными из-за каких-либо иных затруднений, не связанных с функцией участка.Дата последнего обновления: 27.05.2013
© Dmitry Travin, 2012