Мотивы в белках

Консервативные мотивы в выравнивании

Для практикума я выбрала семейство Циклотиды(PF03784). Содержатся они в растениях(больше всего в Фиалковых) и используются для защиты. Главная особенность этих белков - в зрелом состоянии они имеют циклическую структуру. В отличие от других циклических пептидов, они имеют вторичную структуру(поскольку гораздо больше по размерам). Характерная черта у них - наличие цистеинового узла - 3 пар дисульфидных связей. Такая структура придает им большую стабильность.

Циклотиды разделяются на 3 группы: браслетные(bracelet), мебиусные и ингибиторы трипсина(их довольно мало).

Мотивы, отличающие браслетные циклотиды от мебиусных

Источник: "Cyclotides: From Structure to Function" Simon J. de Veer, Meng-Wei Kan, and David J. Craik

Выравнивание seed. Окраска clustal с порогом 75%. В одной из последовательностей 3-ий цистеин не был выровнен - она была убрана

Выравниванивание seed содержит 30 последовательностей(третий цистеин в VHL1_VIOHE/1-31 не выровнен с остальными, что плохо). Общий мотив: C[AG]E[ST]C. Он представлен во всех последовательностях.

Мотив в формате PROSITE: C-[AG]-E-[ST]-C.

Далее с помощь сервиса MyHits был проведен поиск по таксону Viridieplanta. Я получила 149 находок.

Файл с выдачей MyHits

Далее было построено дерево методом UPGMA, на нем можно искать клады, соответствующие браслетным и мебиусным белкам.

Для отделения клад друг от друга использовались паттерны, взятые со схемы из статьи.

Расположение паттерна Тип циклотид Характерный паттерн Число находок в зеленой кладе Число находок в синей кладе
Loop 1 Браслетные GES 13 3
Мебиусные GET 1 6
Loop 2 Браслетные V[FVY]IP 6 0
Мебиусные [FGTA][GLKT]G[TK] 0 7
Loop 3 Браслетные [ITL][STV][GAST][VALI][ILVA]G 6 0
Мебиусные [NY]TPG 0 6
Loop 5 Браслетные [KSR][NSD]KV 11 0
Мебиусные [SDT][WY]P[VI] 0 6

Клады хорошо отделяются по этим паттернам(хотя не нашлось такого, который бы отделял всю кладу целиком) - можно считать, что зеленая клада соответствует браслетным циклотидам, а синяя - мебиусным. Лучше всего отделяет свою кладу(синюю) паттерн [FGTA][GLKT]G[TK].

Поиск мотивов с помощью MEME

Из зеленой клады были выбраны последовательности так, чтобы в их выравнивании не было гэпов, пустые колонки были удалены. В выравнивание попало 9 последовательностей, оно было сохранено в файл bracelet_no_gaps.fa. Далее была запущена программа meme:

meme braceley_no_gaps.fa -o meme_bracl -nmotifs 4 -minw 4

Найденный мотив - попал весь белок

PSI-BLAST

Для белка с AC C4Z088(ID MINC_LACE2). Это белок из Грам-положительной бактерии Lachnospira eligens, он блокирует полимеризацию FtsZ, необходимую для деления клетки. Таким образом он ингибирует деление бактерии.

Для этого белка запускался PSI-BLAST по базе данных Swiss-Prot, остальные параметры были оставлены по умолчанию.

Номер итерации Число находок выше порога(0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 162 P57845.1 0.018 C4Z9Q0.1 2e-61
2 188 - - C4Z9Q0.1 4e-72
3 188 - - A4TJI1.1 5e-75
4 189 A7H8E6.1 0.016 A4TJI1.1 9e-79
5 189 A7H8E6.1 0.020 A4TJI1.1(SECA_ANADF) 2e-82

В 1, 2 и 3 итерациях первой находкой был C4Z088, поэтому там указана вторая находка.

Все найденные на 5 итерации белки имеют мнемонику MinC - нет перепредсказаний. Худшей находкой ниже порога на 5 итерации был белок Q9ZM51.1 с мнемоникой MINC_HELPJ(будем считать, что она верная) и E-value 2e-13(довольно низкий). У лучшей находки выше порога E-value значително выше и она не верная - наверное, не нейденных белков minC мало.

Оценка представленности GATC сайта

Для анализа я взяла хромосому Shigella flexeneri. Для построения гистограммы контрастов использовался скрипт Каримовой Карины.

Гистограмма контрастов

Ожидалось, что сайт GATC будет недопредставлен, но на гистограмме этого не видно. При этом недопредставлен сайт CTAG, являющийся палиндромным к GATC.