Для выполнения практической работы мною был выбран домен SH3 domain (PF00018/SH3_1): записей seed 55 (так что по критерию подходит). Затем я зашла в Pfam и скачала seed и перешла в Jalview:
Поскольку на 100% видна только одна покрашенная колонка, то пришлось снижать порог до 50%:
Здесь виден мотив на координатах 2-6 (на 8 координате тоже видно что-то консервативное, но 7 координата не консервативна, поэтому беру только до 6). Информационное содержимое найденного мотива невысокое.
На основании полученного мотива можно записать следующий паттерн Jalview: [AVT][RLVEKIMQA][YFHNKLAS][DESNPAG][FLY] (был найден во всех последовательностях). Далее я переделала паттерн в формат Prosite: [AVT]-[RLVEKIMQA]-[YFHNKLAS]-[DESNPAG]-[FLY], но ScanProsite выдал ошибку, потому что слишком много совпадений. Поэтому пришлось сокращать до самых частых букв в столбцах: A-L-Y-D-Y. После этого выдача была следующей:
Было получено 333 совпадения в 330 последовательностях. Найденные белки выполняют разные функции и принадлежат абсолютно разным организмам (здесь лежит ссылка на graphical view). В общем, ничего кроме разочарования я здесь не ощутила.
Я продолжала заниматься со своим прекрасным (нет) выравниванием и построила филогенетическое дерево по методу NJ (я не увидела метод UPGMA):
У меня не получилось выделить выравнивание этой клады в отдельное окно, поэтому смотрела на общем выравнивании.
У этой клады очень много консервативных мотивов. Я выбрала с координатами 369-380. Он специфичен для клады.
Методом великого Бога рандома мне выпала цифра 5, значит буду работать с белком Q7VDL2.
Исследуемый белок ингибирует клеточное деление у цианобактерии Prochlorococcus marinus (штамм SARG/CCMP1375/SS120), действуя как негативный регулятор цитокинеза. Его механизм включает:
Для этого белка с помощью PSI-BLAST был осуществлен поиск семейства гомологов, ниже представлена таблица после 3 итераций (этого количества хватило, чтобы сделать выводы):
Таблица демонстрирует, что PSI-BLAST эффективно идентифицировал целевое белковое семейство уже к 3-й итерации:
С помощью Pfam скачала последовательности белков, содержащие домен PF00018 (585 Reviewed), в fasta-формате. С помошью консольной программы meme был проведен поиск de novo мотивов в этих белках:
Здесь представлена ссылка на выдачу meme. Было найдено 4 мотива, все они были с низким E-value. Одним из мотивов является тот, что был найден в seed, а именно ALYDY (значит он является важным для домена). Ниже представлено его изображение:
Для проведения оценки понадобился геном моей бактерии Streptomyces globosus в fasta-формате, а также набор комбинаций GATC. Для подсчета контрастов была использована следующая программа:
Результатом данной программы стала таблица res.tsv. При помощи Python я визуализировала полученные данные следующим образом:
Представленность сайта метилирования GATC невысокая. Скорее всего, сайтом метилирования является иной сайт.