Для работы был выбран домен PF09239 (Topo-VIb_trans).
Члены этого семейства имеют структуру, состоящую из четырехцепочечного бета-листа,
поддерживаемого тремя альфа-спиралями, последняя из которых имеет длину более 50
аминокислот и простирается от тела белка на несколько витков. Было высказано предположение,
что этот домен опосредует межсубъединичную связь путем структурной передачи сигналов от
доменов связывания и гидролиза АТФ в домены связывания и расщепления ДНК холофермента гиразы.
Seed включает в себя 67 последовательностей. Я скачала файл и перевела его в формат Jalview: PF14521.msf.
После удаления реплик последовательностей количество осталось таким же. Above identity threshold установила на 100%.
Уже здесь был замечен мотив:
R[YF][AV]N[KR][VI]PL
Он был найден в 62 последовательностях, что говорит о довольно высокой представленносии (IC).
Формат PROSITE: R-[YF]-[AV]-N-[KR]-[VI]-P-L
Поиск мотива проводился на сайте ProSite (ScanProsite tool) по БД SwissProt. Я получила 32 находки, соответствующие
бета-субъединице топоизомеразы VI (на 27.03.24 в UniProtKB/Swiss-Prot содержится 571,282 белка).
Дерево было построено с использованием алгоритма NJ. Я скачала Newick–формулу и дополнительно проверила его в NGP Phylogenetic,
укоренив в среднюю точку. Чётко выделялась одна клада из 13 белков (выделена синим, синий блок последовательностей).
Она очень хорошо отделяется от остальных (см. рисунок ниже). Мотив, соответственно, я подстроила под текующую кладу:
RFANRVPL[LMVI]YQ[QR]G[AG]C
Для работы с PSI-BLAST я выбрала AC P17265. Это фактор содействия гибернации рибосом. Необходим для димеризации активных 70S рибосом в
100S рибосомы в стационарной фазе; рибосомы 100S трансляционно неактивны и иногда присутствуют во время экспоненциального роста.
Результаты последовательных запусков PSI-BLAST приведены в таблице ниже.
Я выбрала домен PF08230 (CW_7). Этот домен первоначально был обнаружен в С-концевой части лизоцима Cpl-7, кодируемого бактериофагом
Cp-7 Streptococcus pneumoniae (Швейцария: P19385). Он также обнаружен в гидролазах клеточных стенок патогенов человека и домашнего скота.
Повторы CW_7 составляют мотив связывания клеточной стенки.
Выбрана данная доменная архитектура:
Я работала с Campylobacter coli. Для начала я написала код, который создал всевозможные k-меры длины 4 из букв A, T, G, C (повторения
не допускались). Его можно найти тут.
Далее, я поместила все 4-меры в отдельный файл, разделив пробелами сайты, и запустила программу, дополнительно подав на вход геном моей бактерии:
cbcalc -s 4mers.txt campylo_fasta.fna > result.tsv
Выдачу можно найти тут. По этим данным я построила
гистограмму контрастов (отношение наблюдаемой к ожидаемой частоте) по методу BCK: