Выбран домен MazG_C (вслепую, с подходящими параметрами в букве М).
ID: PF18722. Обнаружен на С-конце пирофосфатазного домена надсемейства MazG. Предполагается, что он действует как нуклеотид-киназа1.
Число последовательностей в выборке seed: 30;
Число последовательностей в выборке full: 150;
Число доменных архитектур белков: 3; из них только 2 достаточно представлены:
доменная архитектура Q4KDB2_PSEF5 из MazG, MazG_C (89 последовательностей);
доменная архитектура T0GKB4_9SPHN из MazG_C (59 последовательностей);
3D структуры отсутствуют;
Встречается у различных бактерий: больше всего в белках Proteobacteria (71), а также у Actinobacteria (23), Bacteroidetes (7), Cyanobacteria (3). При этом в альфапротеобактериях встречается 43 белка с этим доменом, в бетапротеобактериях - 15, гаммапротеобактериях - 12.
HMM профиль выравнивания был создан 13 октября 2021, 190 позиций.
В целом последовательности выравнялись хорошо, есть несколько участков, на которых произошла небольшая инсерция/делеция (150, 155, 195, 200, 230, 235, 330). Также можно заметить, что выравнивание начинается не с начала последовательности (с 150 позиции). Если уменьшить E-value до 10-8, то появится начало последователности, между основным и появившимся участком также есть делеция/вставка.
Было скачано выравнивание из 150 последовательностей (full) в формате FASTA. Далее были удалены избыточные последовательности с порогом идентичности 80%, их осталось 78.
Ссылка на выравнивание
После построения дерева можно выделить 2 больших группы и несколько маленьких (7), включающих в себя 4 или меньше последовательности. Будет производиться сравнение только больших двух групп. В целом они довольно схожи между собой, на позициях остаются те же группы аминокислот, сильных различий нет. Можно заметить следующие небольшие различия (1 группа - желтого цвета, 2 группа - темно-бирюзового):
18 позиция: в первой группе L, F, Y, когда во второй F, H или гэп, лейцин отсутствует;
26 позиция: в первой группе E, Q, во второй только E;
30 позиция: R, D в первой группе, во второй аминокислоты разнообразны (R, S, K, D, E, A);
66 позиция: в первой группе преобладает D, во второй - N;
83 позиция: во второй группе встречаются только 3 аминокислоты на этой позиции (V в основном, также I, L), когда в первой нет преобладания какой-либо определенной аминокислоты, очень большая вариация;
87 позиция: во второй группе эта позиция консервативна, встречается только D, когда в первой группе помимо D встречаются Q, A, N, S;
209 позиция: в первой группе преимущественно D, E, Q, во второй - L, Q.
Интересно отметить отличие светло-сиреневой и оранжевой групп на позициях 162-175: в их последовательности на этом участке произошла вставка, так как у других там индель.
По запросу database:(type:pfam pf18722) были найдены белки с доменом семейства MazG_C. Ссылка на таблицу
Так как все белки найдены только в бактериях, то был выбран таксон PHYLUM, в котором уже видны таксономические различия.
1 - Iyer LM, Zhang D, Burroughs AM, Aravind L;, Nucleic Acids Res. 2013;41:7635-7655.: Computational identification of novel biochemical systems involved in oxidation, glycosylation and other complex modifications of bases in DNA. PUBMED:23814188 EPMC:23814188