Паттерны и банк PROSITE

Содержит ли Swissprot послание инопланетян?

Теоретическое предсказание: В этом разделе мы узнаем сколько раз слово "liver", которое гипотетически можно составить из однобуквенных названий аминокислот, встречается в базе данных Uniprot. Сначала предскажем теоретически ожидаемую величину: перемножаем доли каждой из пяти аминокислот в базе (результат: 1,48*10-6) и умножаем полученную вероятность на объём всего банка (191 670 831 остатков). Получилось число 293 - именно такое число раз мы ожидаем встретить liver среди всех последовательностей Uniprot.

Какова же ситуация на самом деле? Для этого произведём поиска слова "liver" как паттерна - записи, созданной на основе множественного выравнивания сходных белков, которая в краткой форме характеризует участок белковой последовательности, учитывая ключевые консервативные аминокислотные остатки и расстояния между ними. Воспользуемся сервисом ScanProsite портала ExPASy для поиска интересующего паттерна. Результат поиска: 200 паттернов в 200-х последовательностях банка Uniprot.

Выводы: Паттерн встречается с меньшей частотой, чем ожидалось. Вероятно, это можно объяснить тем, что первые три аминокислоты паттерна имеют алифатические радикалы, а после них идут отрицательно заряженный глутамат и положительно заряженный аргинин. Такая композиция менее вероятна, чем можно предположить статистически. Или же просто инопланетяне не очень любят печёнку.

Нахождение вероятных гомологов белка CISY_BACSU с использованием паттернов

Для поиска гомологов были созданы два паттерна, которые были условно названы "сильный" и "слабый" по тому, насколько сильное ограничение накладывается на искомую последовательность. Таким образом, предполагается, что "слабый" паттерн даст не только гомологи моего белка, но и другие белки, содержащие некоторую группу аминокислот, расположенных определённым образом. От "сильного" же паттерна ожидается нахождение всех последовательностей исходного белка, а кроме того, близких его гомологов, в выборку (см. практикум 8) не вошедших. Исходные паттерны и краткие результаты представлены в таблице 1.

Таблица 1. Результаты поиска гомологов с использованием паттернов "различной силы"
Характеристика Паттерн Количество послед. в Swiss-Prot Полнота нахождения последовательностей из выборки Количество случайных совпадений на 100'000 послед.
"Слабый" паттерн G-x-G-x(8)-D-P 2566 не все (*) 524
"Сильный" паттерн N-x-[ED]-x(3)-[AGS]-x(20,21)-R-x(2)-G-x(6)-[EWI]-x(8,10)-R-P 101 не все (*) 0.35

(*) - в обоих случаях это связано в том числе и с тем, что поиск гомологов для формирования выборки проводился по базе RefSeq, а сейчас мы работаем только в Swiss-Prot.

И действительно, белки, найденные с использованием сильного паттерна, безусловно являются его гомологами. Список найденных белков представлен в ТАБЛИЦЕ 2. В ней жёлтым цветом выделен исходный белок, розовым случайно проскочивший единственный несходный по функции белок, а синим показан обширный блок цитратсинтаз из бактерий рода Rickettsia. Кроме того, стоит отметить, что большинство белков в таблице либо принадлежат бактериям, либо относятся к митохондриальным или пероксисомальным белкам эукариот.

Поиск всех мотивов PROSITE в последовательности CISY_BACSU

В этом разделе последовательность белка была проанализирована на наличие специфических мотивов. Результаты поиска и описание каждого из обнаруженных мотивов представлено в таблице 3.

Таблица 3. Мотивы в последовательности белка CISY_BACSU
Prosite AC Название мотива Краткое описание Тип подписи Паттерн Специфичность Количество мотивов
PS00480 ACT_SITE Активный сайт фермента Паттерн G-[FYAV]-[GA]-H-x-[IV]-x(1,2)-[RKTQ]-x(2)-[DV]-[PS]-R Специфична 1
PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеинкиназой II Паттерн [ST]-x(2)-[DE] Неспецифична 7
PS00001 ASN_GLYCOSYLATION Сайт N-гликозилирования Паттерн N-{P}-[ST]-{P} Неспецифична 2
PS00004 CAMP_PHOSPHO_SITE Сайт фосфорилирования цАМФ- и цГМФ-зависимых киназ Паттерн [RK](2)-x-[ST] Неспецифична 1
PS00008 MYRISTYL Сайт N-миристоилирования Паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} Неспецифична 3
PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования протеинкиназы С Паттерн [ST]-x-[RK] Неспецифична 2
PS00009 AMIDATION Сайт амидирования Паттерн x-G-[RK]-[RK] Неспецифична 1

Гомологичность обнаруженных с использованием паттернов белков

Для всех белков, описанных в таблице 2, (см. выше) были получены последовательности в формате FASTA, на основе которых было построено выравнивание с использованием программы MUSCLE. Результат выравнивания, окрашенный по схеме Clustal-X, представлен на рисунке 1.

Рис. 1 Выравнивание CISY_BACSU с его гомологами, найденными с использованием паттернов

Выводы: Белки хорошо выравниваются по всей длине, образуя чётко выделяющиеся блоки с высокой степенью консервативности, что наряду с единством выполняемой функции может говорить об их гомологичности.

Сравнение гипотетического числа мотивов с реальным числом найденных последовательностей

Для паттерна N-x-[ED]-x(3)-[AGS]-x(20,21)-R-x(2)-G-x(6)-[EWI]-x(8,10)-R-P было посчитано число теоретических последовательностей, которые могут ему соответствовать. Результат: всего такому паттерну могут соответствовать 18*2043 последовательностей, при том что в реальных белках нашлась только лишь 101, что говорит, во-первых, о консервативности участка, по которому строился паттерн (лигандсвязывающий участок), а, во-вторых, о том, что многие комбинации в таком участке являются запрещёнными из-за каких-либо иных затруднений, не связанных с функцией участка.

Дата последнего обновления: 27.05.2013
© Dmitry Travin, 2012