Мотивы в белках

Задание 1

Для изучения я выбрал домен PF000089 - трипсиновый домен. Среди выборки seed 70 последовательностей для белка. Из своей работы в лаборатории я знаю консервативные мотивы этого семейства. Среди них я выбрал мотив G[DN]SGG[PS] - содержащий цистеин из каталитической триады домена. Этот мотив есть в 53 из 70 последовательностях выборки seed. К сожалению, я поздно увидел ограничение на 500 последовательностей в Swiss-Prot, форму выбора домена к тому моменту уже заполнил, так что для моего домена нашлось 889 белков в Swiss-Prot. Затем я произвел поиск в PROSITE по запросу G-[DN]-S-G-G-[PS]. Получил 863 последовательности среди которых 770 уникальных белков (некоторые из этих последовательностей - изоформы). Среди них скриптом нашел 151 белок, не содержащий выбранный домен - скрипт отправляет запросы в UniProt, и по ответу понимает, есть ли в белке нужный домен. Многие из таких белков (75) содержат домен PF13365 - домен трипсиноподобных протеаз, также часто встречаются домены PDZ (PF17820 - 38 белков, PF13180 - 37 белков, вместе как раз 75), ассоциированные с доменами трипсиноподобных протеаз. Выровняв выдачу PROSITE, я обнаружил, что в выдаче паттер встречается 873 раза - в некоторых белках по два, а то и три раза, предположу, что это связано с тем, что некоторые доменные архитектуры содержат несколько трипсиновых доменов. Большинство найденных последовательностей содержатся на одних и тех же колонках выравнивания - так что, как и ожидалось, мотив вполне консервативен.

Задание 2

С помощью UPGMA я построил дерево найденных последовательностей. Из него я выделил кладу состоящую из белков NETR и PLMN различных таксонов. Таких белков в выборке оказалось 19. Самым консервативным мотивом этих белков оказался как раз искомый мотив. Так что я принял решение расширить его в качестве более консервативного мотива именно для этой клады. Таким образом, мотив для этой клады я определил, как [VTI]DSCQGDSGGPL[MV]CF?E. Этот мотив нашелся в 18 из 19 белках клады и в 25 из 863 белков с более коротким искомым мотивом. Большинство из белков, в которых нашелся этот мотив, но не относящихся к выбранной кладе, относятся к белкам TMPS9 - мембранным сериновым протеазам. Белки из выбранной клады - белки внеклеточного матрикса (нейротрипсины и плазминогены). Тем не менее, плазминогены уходят в этот самый матрикс, сначала встраиваясь в мембрану, а уже потом отрезаясь от "якоря". Таким образом, вероятно, плазминогены произошли от мембранных сериновых протеаз. Расширенный мотив считаю вполне объемлющим выбранную кладу и специфичным для нее.

Задание 3

Для дальнейших манипуляций я выбрал белок Q7VDL2 из цианобактерии Prochlorococcus marinus, который представляет собой вероятных определяющий область перегородки белок - он предотвращает полимеризацию белка, образующего так называемое Z-кольцо, определяющее положение пеерегородки. Выбрав Swiss-Prot в качестве базы данных, я запустил PSI-BLAST.

Таблица 1. Результаты поиска PSI-BLAST по идентификатору Q7VDL2
Номер итерации Число находок выше порога (0.005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 146 Q9AG20.1 0.005 A8GFG7.1 0.005
2 188 B6JKX0.1 7e-08 - -
3 188 Q9ZM51.1 2e-12 A7H8E6.1 0.014

Все белки из результатов поиска имеют одинаковое название (разве что один не вероятный, а подтвержденный определяющий область перегородки белок). Таким образом, PSI-BLAST хорошо выделил семейство за три итерации.

Задание 4

Скачав белки с доменом PF00089 из Swiss-Prot, я применил к ним программу MEME. Cсылка на выдачу. Я нашел четыре мотива, первый мотив - по сути состоит из двух консервативных частей, окаймляющих две аминокислоты из каталитической триады домена, второй - мотив, который я выбрал для первого задания, окаймляющий третью аминокислоту триады. Следующие два мотива менее распространены и консервативны, но они также упоминаются в статьях, видимо они также связаны со стабилизацией активного центра.

Задание 5

С помощью программы cbcalc на kodomo я посчитал CB всех четырехбуквенных слов, состоящих из четырех разных букв, в геноме бактерии Bacillus subtilis. Гистограмма этих величин представлена на рисунке 1.

Интересное слово GATC не сказать, что сильно отличается недопредставленностью. А вот слово CTAG - его противоположность и так же палиндром - сильно недопредставленно, поискав немного, что такого в этом слове, я нашел ожидаемый результат - оно часто является центром сайтов различных рестриктаз. Предположу, что именно поэтому оно недопредставлено.