Мотивы в белках
Задание 1
Для изучения я выбрал домен PF000089 - трипсиновый домен. Среди выборки seed 70 последовательностей для белка. Из своей работы в лаборатории я знаю консервативные мотивы этого семейства. Среди них я выбрал мотив G[DN]SGG[PS] - содержащий цистеин из каталитической триады домена. Этот мотив есть в 53 из 70 последовательностях выборки seed. К сожалению, я поздно увидел ограничение на 500 последовательностей в Swiss-Prot, форму выбора домена к тому моменту уже заполнил, так что для моего домена нашлось 889 белков в Swiss-Prot. Затем я произвел поиск в PROSITE по запросу G-[DN]-S-G-G-[PS]. Получил 863 последовательности среди которых 770 уникальных белков (некоторые из этих последовательностей - изоформы). Среди них скриптом нашел 151 белок, не содержащий выбранный домен - скрипт отправляет запросы в UniProt, и по ответу понимает, есть ли в белке нужный домен. Многие из таких белков (75) содержат домен PF13365 - домен трипсиноподобных протеаз, также часто встречаются домены PDZ (PF17820 - 38 белков, PF13180 - 37 белков, вместе как раз 75), ассоциированные с доменами трипсиноподобных протеаз. Выровняв выдачу PROSITE, я обнаружил, что в выдаче паттер встречается 873 раза - в некоторых белках по два, а то и три раза, предположу, что это связано с тем, что некоторые доменные архитектуры содержат несколько трипсиновых доменов. Большинство найденных последовательностей содержатся на одних и тех же колонках выравнивания - так что, как и ожидалось, мотив вполне консервативен.
Задание 2
С помощью UPGMA я построил дерево найденных последовательностей. Из него я выделил кладу состоящую из белков NETR и PLMN различных таксонов. Таких белков в выборке оказалось 19. Самым консервативным мотивом этих белков оказался как раз искомый мотив. Так что я принял решение расширить его в качестве более консервативного мотива именно для этой клады. Таким образом, мотив для этой клады я определил, как [VTI]DSCQGDSGGPL[MV]CF?E. Этот мотив нашелся в 18 из 19 белках клады и в 25 из 863 белков с более коротким искомым мотивом. Большинство из белков, в которых нашелся этот мотив, но не относящихся к выбранной кладе, относятся к белкам TMPS9 - мембранным сериновым протеазам. Белки из выбранной клады - белки внеклеточного матрикса (нейротрипсины и плазминогены). Тем не менее, плазминогены уходят в этот самый матрикс, сначала встраиваясь в мембрану, а уже потом отрезаясь от "якоря". Таким образом, вероятно, плазминогены произошли от мембранных сериновых протеаз. Расширенный мотив считаю вполне объемлющим выбранную кладу и специфичным для нее.
Задание 3
Для дальнейших манипуляций я выбрал белок Q7VDL2 из цианобактерии Prochlorococcus marinus, который представляет собой вероятных определяющий область перегородки белок - он предотвращает полимеризацию белка, образующего так называемое Z-кольцо, определяющее положение пеерегородки. Выбрав Swiss-Prot в качестве базы данных, я запустил PSI-BLAST.
Номер итерации | Число находок выше порога (0.005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 146 | Q9AG20.1 | 0.005 | A8GFG7.1 | 0.005 |
2 | 188 | B6JKX0.1 | 7e-08 | - | - |
3 | 188 | Q9ZM51.1 | 2e-12 | A7H8E6.1 | 0.014 |
Все белки из результатов поиска имеют одинаковое название (разве что один не вероятный, а подтвержденный определяющий область перегородки белок). Таким образом, PSI-BLAST хорошо выделил семейство за три итерации.
Задание 4
Скачав белки с доменом PF00089 из Swiss-Prot, я применил к ним программу MEME. Cсылка на выдачу. Я нашел четыре мотива, первый мотив - по сути состоит из двух консервативных частей, окаймляющих две аминокислоты из каталитической триады домена, второй - мотив, который я выбрал для первого задания, окаймляющий третью аминокислоту триады. Следующие два мотива менее распространены и консервативны, но они также упоминаются в статьях, видимо они также связаны со стабилизацией активного центра.
Задание 5
С помощью программы cbcalc на kodomo я посчитал CB всех четырехбуквенных слов, состоящих из четырех разных букв, в геноме бактерии Bacillus subtilis. Гистограмма этих величин представлена на рисунке 1.
Интересное слово GATC не сказать, что сильно отличается недопредставленностью. А вот слово CTAG - его противоположность и так же палиндром - сильно недопредставленно, поискав немного, что такого в этом слове, я нашел ожидаемый результат - оно часто является центром сайтов различных рестриктаз. Предположу, что именно поэтому оно недопредставлено.