Я решил выбрать домен GATA zinc finger с идентификатором PF00320. Этот цинк-содержащий домен позволяет специфично связывать (A/T)GATA(A/G) ДНК-последовательности; ион цинка координируется четырьмя остатками цистеина. Этот домен является ключевым для большого количества транскрипционных факторов. В сиде данного домена содержится 56 белков. Далее я искал консервативные мотивы в программе JalView, предварительно попробовав убрать крайне схожие последовательности (таких не оказалось).
Я решил рассмотреть мотив, находящийся на 29–35 позициях, который можно записать как [LV]C[NT][AP]CG[LI]. Далее я провёл его поиск в таком виде среди последовательностей сида:
В результате он обнаружился в 34 из 56 последовательностей. Наиболее консервативными в данном мотиве являются два цистеина, которые непосредственно обеспечивают связывание цинка.
Далее я решил найти данный мотив в базе данных SwissProt с помощью программы Prosite. В формате этой программы данный мотив будет выглядеть как Prosite [LV]-C-[NT]-[AP]-C-G-[LI]. Нашлось 192 совпадения в 124 последовательностях. В значительной части из них в самом названии был указан GATA-мотив.
Что интересно, в общем выравнивании достаточно однозначно выделился GATA-домен целиком, что говорит о том, что цинк-связывающий мотив, который я рассматривал, для него достаточно уникален.
Далее я в JalView построил дерево, используя метод NJ. Проект
Взятый мной домен не очень большой; тем не менее мне показалось, что у выделенной красным ветки из 6 последовательностей есть уникальный мотив T[TS]LWRRN, отличающийся от остальных.
Я решил проверить, действительно ли он уникален только для рассмотренной мной ветки.
Выдача программы. Как можно наблюдать, этот мотив действительно в такой конфигурации есть только у 6-ти организмов рассматриваемой ветви.
Я выбрал белок с идентификатором P74518. Данный фактор, выделенный из цианобактерии Synechocystis sp., способствует переходу рибосом в неактивное состояние.
Результаты поиска гомологов с использованием PSI-BLAST представлены в таблице:
| Номер итерации | Находок выше порога (0.005) | Идентификатор худшей находки выше порога | E-value худшей находки | Идентификатор лучшей находки ниже порога | E-value лучшей находки ниже порога |
|---|---|---|---|---|---|
| 1 | 24 | P33987.1 | 0.00003 | — | — |
| 2 | 28 | P9WMA8.1 | 0.000004 | — | — |
| 3 | 28 | P24694.1 | 2E-20 | — | — |
| 4 | 28 | P24694.1 | 2E-20 | — | — |
Вывод: Уже на первой итерации отсутствуют статистически незначимые находки (ниже порога), а на третьей итерации количество найденных гомологов стабилизируется. Это свидетельствует о том, что белок P74518 принадлежит к чётко обособленному protein family.
Далее я скачал последовательности всех белков своего домена, представленных в SwissProt: PF00320.fasta. И произвёл поиск de-novo мотивов с помощью программы MEME.
Выдача программы. Всего обнаружилось 4 мотива с очень низким E-value. Самым частовстречаемым оказался как раз тот мотив, который я рассматривал в первом пункте. Ниже можно посмотреть на его лого-диаграмму.
Я взял файл генома бактерии Acinetobacter calcoaceticus, данный мне в первом семестре: файл. И проанализировал встречаемость GATC, учитывая все перестановки: файл.
Как можно видеть, представленность сайта GATC чуть меньше единицы; представленность других сайтов метилирования около единицы.