Мотивы в белках

Выбор домена, поиск консервативных мотивов, PSI BLAST, работа с МЕМЕ

-

Задание 1. Консервативные мотивы в выравнивании

Выбрала NYN domain, entry PF01936. Относится к клану PIN, суперсемейство нуклеаз. Скачала seed моего домена, он включает 142 последовательности.

Выровняла JalView:

Множественное выравнивание JalView.

После reduse redundancy 90% осталось 140 последовательностей, то есть почти не было сильно схожих.

Дальше поиск мотива: снижаю порог идентичности до 95, появилась первая аминокислота из мотива: D колонка 7

На пороге 90% появились четыре аспарагиновых кислоты в колонках 7, 153, 183 и 185, но мне кажется это недостаточным из-за неспецифичности свойств аминокислоты и разброса

На пороге 81% появляются и ароматические аминокислоты: видим фенилаланин в 189 колонке и тирозин в 76. Еще появился аспарагин в 10

Результат покраски clustal, identity threshold 81.

Из этого на мотив тянет скопление 153-185

Покрасила по консервативности с порогом 50%.

Отсюда предположим, что имеется мотив 153-189 коллонки, с консервативными аспартатами. Это не очень хороший мотив в смысле информационного содержания, вероятность встретить такое случайно достаточно велика. Однако этот домен отвечает за связывание иона, значит важно иметь заряженные аминокислоты в активном центре, аспарагин в принципе подходит на эту роль.

Лого мотива с сайта Pfam выглядит так:

Мотив по Pfam.

Видим, что хорошо соотносится с найденными нами аминокислотами.

По JalView Consensus/1-38 Percentage Identity Consensus: GKNA+DVGLAIDAMELAYTNPPP+PDTFVLVSG++DGD

Создадим сильный мотив PROSITE, просто изменив синтаксис: G-K-N-A-x-D-V-G-L-A-I-D-A-M-E-L-A-Y-T-N-P-P-P-x-P-D-T-F-V-L-V-S-G-x-x-D-G-D

Поиск в PROSITE дал no hits..

Выдача PROSITE.

Но мы будем считать что отсутствие результата это тоже результат. Мотив, во-первых, слишком длинный, во-вторых, слишком детерминированный. Возьмем мотив покороче и послабее.

Я поставила порог Identity 70%, все выделившиеся аминокислоты дают мотив K-x(3)-D-x(5)-D-x(14,19)-S-x(1,3)-D-x-D

По базе seed (искала с помощью PROSITE) получилось 77 hits in 77 sequences, что не очень хорошо - общая мощность базы 142, то есть найдено примерно в половине последовательностей. Но для такого несильного мотива это ок

Получила 208 hits in 208 sequences. Довольно слишком много, значит, мотив получился и строгий, и не специфичный.

Approximate number of expected random matches [Ref: PMID 11535175] in ~ 100'000 sequences (50'000'000 residues): 26 - это не очень плохо.

Выдача PROSITE по более слабому мотиву.
Задание 2. Подсемейство.
Древо 142 последовательностей из выравнивания, построено методом NJ.

На древе синим выделена ветвь, которая мне нравится для дальнейшего анализа.

Множественное выравнивание соответствующих последовательностей, покрашенное Blosum62 с порогом Identity 90%:

Мотив клады.

Первая последовательность сильно отличается от остальных, исключим ее из анализа. Оставшиеся ветви тоже образуют кладу.

Полученный мотив из колонок 57-66: P-L-[T,I,V]-D-W-L-[D,T,A,H]-Y-N-G

Поиск среди последовательностей

Мотив искала среди своих последовательностей с помощью PROSITE. В базе нашлось ровно 11 последовательностей, сколько и было в кладе. Значит, мотив специфичный и сильный - он хорошо разделяет нужные последовательности от остальных.

Задание 3. PSI-BLAST

Я выбрала AC P39450 - S-(hydroxymethyl)glutathione dehydrogenase, принадлежит Photobacterium damsela subsp. piscicida (Pasteurella piscicida).

Хватило всего две итерации PSI BLAST:

Таблица итераций PSI-BLAST

На второй итерации нижнее значение E-value получилось очень маленьким, это говорит в пользу того, что эти 500 белков прекрасно кластеризуются в семейство.