Практикум 10

Мотивы в доменах белков

Поиск консервативных мотивов в выравнивании

Я решил выбрать домен GATA zinc finger с идентификатором PF00320. Этот цинк-содержащий домен позволяет специфично связывать (A/T)GATA(A/G) ДНК-последовательности; ион цинка координируется четырьмя остатками цистеина. Этот домен является ключевым для большого количества транскрипционных факторов. В сиде данного домена содержится 56 белков. Далее я искал консервативные мотивы в программе JalView, предварительно попробовав убрать крайне схожие последовательности (таких не оказалось).

Responsive image
Рис. 1. Мотив в файле с последовательностями, принадлежащих к одному домену.

Я решил рассмотреть мотив, находящийся на 29–35 позициях, который можно записать как [LV]C[NT][AP]CG[LI]. Далее я провёл его поиск в таком виде среди последовательностей сида:

fuzzpro ./*.msf -pattern "[LV]C[NT][AP]CG[LI]" -outfile result.txt

В результате он обнаружился в 34 из 56 последовательностей. Наиболее консервативными в данном мотиве являются два цистеина, которые непосредственно обеспечивают связывание цинка.

Далее я решил найти данный мотив в базе данных SwissProt с помощью программы Prosite. В формате этой программы данный мотив будет выглядеть как Prosite [LV]-C-[NT]-[AP]-C-G-[LI]. Нашлось 192 совпадения в 124 последовательностях. В значительной части из них в самом названии был указан GATA-мотив.

Responsive image
Рис. 2. Участок множественного выравнивания с выделившимся доменом.

Что интересно, в общем выравнивании достаточно однозначно выделился GATA-домен целиком, что говорит о том, что цинк-связывающий мотив, который я рассматривал, для него достаточно уникален.

Мотив, специфичный для клады

Далее я в JalView построил дерево, используя метод NJ. Проект

Responsive image
Рис. 3. Дерево, построенное по последовательностям из seed.

Взятый мной домен не очень большой; тем не менее мне показалось, что у выделенной красным ветки из 6 последовательностей есть уникальный мотив T[TS]LWRRN, отличающийся от остальных.

Responsive image
Рис. 4. Участок множественного выравнивания с организмами из рассматриваемой ветви.

Я решил проверить, действительно ли он уникален только для рассмотренной мной ветки.

fuzzpro ./*.msf -pattern "T[TS]LWRRN" -outfile result2.txt

Выдача программы. Как можно наблюдать, этот мотив действительно в такой конфигурации есть только у 6-ти организмов рассматриваемой ветви.

PSI-BLAST

Я выбрал белок с идентификатором P74518. Данный фактор, выделенный из цианобактерии Synechocystis sp., способствует переходу рибосом в неактивное состояние.

Результаты поиска гомологов с использованием PSI-BLAST представлены в таблице:

Таблица 1. Результаты PSI-BLAST для белка P74518
Номер итерации Находок выше порога (0.005) Идентификатор худшей находки выше порога E-value худшей находки Идентификатор лучшей находки ниже порога E-value лучшей находки ниже порога
124P33987.10.00003
228P9WMA8.10.000004
328P24694.12E-20
428P24694.12E-20

Вывод: Уже на первой итерации отсутствуют статистически незначимые находки (ниже порога), а на третьей итерации количество найденных гомологов стабилизируется. Это свидетельствует о том, что белок P74518 принадлежит к чётко обособленному protein family.

Поиск мотивов de novo

Далее я скачал последовательности всех белков своего домена, представленных в SwissProt: PF00320.fasta. И произвёл поиск de-novo мотивов с помощью программы MEME.

meme PF00320.fasta -o meme_out -minw 4 -maxw 10 -nmotifs 4

Выдача программы. Всего обнаружилось 4 мотива с очень низким E-value. Самым частовстречаемым оказался как раз тот мотив, который я рассматривал в первом пункте. Ниже можно посмотреть на его лого-диаграмму.

Responsive image
Рис. 5. Logo мотив 1: LCNACGLYYK, width=10, E-value = 1.6e-1124

Оценка представленности сайта GATC

Я взял файл генома бактерии Acinetobacter calcoaceticus, данный мне в первом семестре: файл. И проанализировал встречаемость GATC, учитывая все перестановки: файл.

cbcalc -s sites.txt -M -o res.tsv genome.fasta

Выдача программы.

Responsive image
Рис. 6. Гистограмма контрастов O/E всех 24 сайтов (без повторений) для Acinetobacter calcoaceticus.

Как можно видеть, представленность сайта GATC чуть меньше единицы; представленность других сайтов метилирования около единицы.