Лого сайта
Множественное выравнивание

1. Содержит ли Swissprot послание инопланетян?

Проветем предсказание встречаемости слова CHALK в белковых последовательностях в базе данных Swissprot.
Всего база содержит 191670831 аминокислот во всех последовательностях.
Встречаемость букв в базе Swissprot такова:

Таким образом теоретически слово CHALK должно встретиться 191670831*8,25*1,37*2,27*5,84*9,66*10^(-10)=277,43 .

То есть слово CHALK, теоретически, встречаетя в базе данных целых 277 раз, при условии того, что аминокислотны состав базы данных в целом случаен и к нему применимы модели из комбинаторики.

Проверка встречаемости слова CHALK при помощи сервиса PROSITE показала, что реально в базе встречается 18 раз.

Полное несоответствие нашей математической модели с реальными данными говорит о том, что наша модель не верна, и взаиморасположение аминокислотных остатков в базе данных не случайно.

Особенно это видно в нашем случае, т.к. последоватьельность CHALK с точки зрения химических свойств слишком разношерстна.


2. Поиск вероятных гомологов белка CLPQ_BACSU в банке SwissProt с помощью паттернов

Для осуществления поиска были составленны паттерны представленные в Таблице 1.

Таблица 1. Составленные паттерны на основе множественного выравнивания.

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из множественного выравнивания найдены? e-value паттерна
Сильный G-F-A-G-[AGS]-[ATV]-A-D-A-[FL]- [AST]-L-x-[DEG]-x-[FL]-E-x(2)-L- [DEQ]-x(3)-[DG]-x-L-x-[KR]-[AS]- [ACSV]-V-[DE]-[FL]-[AST]-[KR]-[DENQ] -W-R-x-D-[KR]-x-L-[QR]-x-L-[DE]-A 222 все 3.663087e-30
Слабый G-F-A-G-x(2)-A-D-A-x(2)-L-x(4)-E-x(2)-L 393 все 1.222279e-04

3. Поиск всех мотивов PROSITE в последовательности белка CLPQ_BACSU

Поиск был проведен через веб интерфейс и результат его представлен в Таблице 2.

Таблица 2. Результаты поиска мотивов PROSITE в последовательности белка CLPQ_BACSU

Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи Паттерн (если это паттерн) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00008 MYRISTYL Сайт N-миристоилирования паттерн G-{EDRKHPFYW}- x(2)- [STAGCN]-{P} нет 2
PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования протеинкиназы С сайт нету нет 2
PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеинкиназой II сайт нету нет 4

4. Гомологичны ли все белки, найденные по сильному патерну?

Для работы выбран сильный паттерн из таблицы 1. И по нему был проведен повторынй поиск по PROSITE при выводе только AC.
В результате был получен фаил содержащий 222 UniProt AC предположительно гомологичных белков.
Сервисами EBI был получен фаил с последовательностями в формате FASTE и было проведено множественнное выравнивание по алгоритму Muscle и T-coffee (фаил выравнивания.) .

Результаты визуальизации множественного выравнивания представлены на Иллюстрациях 1 и 2 .

Иллюстрация 1. Визуализация множественного выравнивания 222 последовательностей алгоритмом Muscle при окрашивании палитрой Clustalx при идентичности столбца более 55%



Иллюстрация 2. Визуализация множественного выравнивания 222 последовательностей алгоритмом T-Coffee при окрашивании палитрой Clustalx при идентичности столбца более 55%


Вывод:Кончечно же да, как явно видно из представленных визуализаций выравниваний (Иллюстрация 1 и 2) гомология прямо таки не может не бросаться в глаза яркими красками совпадений более 55% по всей длине вырвнивания.

5. Предсказание числа мотивов в Swissprot, удовлетворяющих сильному паттерну из задания 2 и сравние с числом находок.

Теоретически, при упрощении модели: длина белка равна длине паттерна, участвуют максимум 20 протеиногенных аминокислот и зависимостьи в последовательности случайны, существует более 9,7*10^(22). (без упрощений, но с сохранением случайности белков, это чило должно только расти)

Но практические данные говорят совершенно о другом: находок фактически на 20 порядков меньше, что говорит о том, что, как мы уже убедились из задания 1, белки- не случайные объекты и имеют определенные сложные законы в своем строении.