Для практикума я выбрала семейство Циклотиды(PF03784). Содержатся они в растениях(больше всего в Фиалковых) и используются для защиты. Главная особенность этих белков - в зрелом состоянии они имеют циклическую структуру. В отличие от других циклических пептидов, они имеют вторичную структуру(поскольку гораздо больше по размерам). Характерная черта у них - наличие цистеинового узла - 3 пар дисульфидных связей. Такая структура придает им большую стабильность.
Циклотиды разделяются на 3 группы: браслетные(bracelet), мебиусные и ингибиторы трипсина(их довольно мало).
Источник: "Cyclotides: From Structure to Function" Simon J. de Veer, Meng-Wei Kan, and David J. Craik
Выравниванивание seed содержит 30 последовательностей(третий цистеин в VHL1_VIOHE/1-31 не выровнен с остальными, что плохо). Общий мотив: C[AG]E[ST]C. Он представлен во всех последовательностях.
Мотив в формате PROSITE: C-[AG]-E-[ST]-C.
Далее с помощь сервиса MyHits был проведен поиск по таксону Viridieplanta. Я получила 149 находок.
Далее было построено дерево методом UPGMA, на нем можно искать клады, соответствующие браслетным и мебиусным белкам.
Для отделения клад друг от друга использовались паттерны, взятые со схемы из статьи.
Расположение паттерна | Тип циклотид | Характерный паттерн | Число находок в зеленой кладе | Число находок в синей кладе |
Loop 1 | Браслетные | GES | 13 | 3 |
Мебиусные | GET | 1 | 6 | |
Loop 2 | Браслетные | V[FVY]IP | 6 | 0 |
Мебиусные | [FGTA][GLKT]G[TK] | 0 | 7 | |
Loop 3 | Браслетные | [ITL][STV][GAST][VALI][ILVA]G | 6 | 0 |
Мебиусные | [NY]TPG | 0 | 6 | |
Loop 5 | Браслетные | [KSR][NSD]KV | 11 | 0 |
Мебиусные | [SDT][WY]P[VI] | 0 | 6 |
Клады хорошо отделяются по этим паттернам(хотя не нашлось такого, который бы отделял всю кладу целиком) - можно считать, что зеленая клада соответствует браслетным циклотидам, а синяя - мебиусным. Лучше всего отделяет свою кладу(синюю) паттерн [FGTA][GLKT]G[TK].
Из зеленой клады были выбраны последовательности так, чтобы в их выравнивании не было гэпов, пустые колонки были удалены. В выравнивание попало 9 последовательностей, оно было сохранено в файл bracelet_no_gaps.fa. Далее была запущена программа meme:
meme braceley_no_gaps.fa -o meme_bracl -nmotifs 4 -minw 4
Для белка с AC C4Z088(ID MINC_LACE2). Это белок из Грам-положительной бактерии Lachnospira eligens, он блокирует полимеризацию FtsZ, необходимую для деления клетки. Таким образом он ингибирует деление бактерии.
Для этого белка запускался PSI-BLAST по базе данных Swiss-Prot, остальные параметры были оставлены по умолчанию.
Номер итерации | Число находок выше порога(0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 162 | P57845.1 | 0.018 | C4Z9Q0.1 | 2e-61 |
2 | 188 | - | - | C4Z9Q0.1 | 4e-72 |
3 | 188 | - | - | A4TJI1.1 | 5e-75 |
4 | 189 | A7H8E6.1 | 0.016 | A4TJI1.1 | 9e-79 |
5 | 189 | A7H8E6.1 | 0.020 | A4TJI1.1(SECA_ANADF) | 2e-82 |
В 1, 2 и 3 итерациях первой находкой был C4Z088, поэтому там указана вторая находка.
Все найденные на 5 итерации белки имеют мнемонику MinC - нет перепредсказаний. Худшей находкой ниже порога на 5 итерации был белок Q9ZM51.1 с мнемоникой MINC_HELPJ(будем считать, что она верная) и E-value 2e-13(довольно низкий). У лучшей находки выше порога E-value значително выше и она не верная - наверное, не нейденных белков minC мало.
Для анализа я взяла хромосому Shigella flexeneri. Для построения гистограммы контрастов использовался скрипт Каримовой Карины.
Ожидалось, что сайт GATC будет недопредставлен, но на гистограмме этого не видно. При этом недопредставлен сайт CTAG, являющийся палиндромным к GATC.