Методом научного тыка было выбрано семейство Calycin_like
Семейство кальциноподобных белков является частью крупного надсемейства кальцинов, объединяющего липокалины, белки, связывающие жирные кислоты, триабин и ингибитор тромбина. Их объединяют из-за образования характерной структуры - β-barrel structures (β-бочонок)[1].
• Общее число последовательностей (full) = 188, число последовательностей в выравнивании seed = 40
• Число доменных архитектур – 11, из которых только 3 имеют количество последовательностей больше 20: Calycin_like (85), Calycin_like, PCMD (34) и Calycin_like x 2 (24)
• Из них я взяла первые две - Calycin_like (85) и Calycin_like, PCMD (34)
• 3D структура есть только у одного белка – мнимого липопротеина (Q5LBW6) или Putative lipoprotein
• Белки встречаются у 93 видов, при чем все эти виды относятся к суперцарству Bacteria. 59 последовательностей относятся к искусственно выделенному царству – Uncategorised bacterium, то есть систематически не определены. Остальные разделяются на классы Bacteroidia (97 последовательностей, 61 вид) и Flavobacteriia (1 последовательность, 1 вид)
• Дата создания HMM профиля – февраль 2015 года. Всего позиций – 123
Ссылка на HMM профиль: Calycin_like.hmm
Карта строилась по белкам двух доменных архитектур: Calycin_like и Calycin_like, PCMD.
Заметно, что есть 7 участков, где происходила делеция или вставка, длиной от 1 (12-14) ак остатка до 8 (42-50).
Ссылка на проект Jalview: pr11-project.jvp
В выравнивании использовалось 188 последовательностей (full). Само выравнивание скачивалось в формате fasta.
Удалять совпадающие последовательности не пришлось, так как процент их сходства оказался очень низким. На самом деле, такое отсутствие сходства наводит на мысль, что, возможно, семейство объединяет эволюционно далекие белки, имеющие конвергентную структуру в виде β-бочонка.
Группы выделялись на основе сходства на участке 39-42. Возьмем для сравнения группы 1 и 3 (желтая и синяя соответственно), потому что во вторую группу были включены последовательности, у которых на этом месте стояли гэпы. 1 группа состоит из 24 последовательностей, 3 группа – из 9. Дальше идут еще две многочисленные группы (8 и 7 последовательностей), 8 групп примерно по 5 последовательностей (6, 5 и 4), а остальные содержат одну-две последовательности (их около 100).
Рассмотрим участки сходства.
1 группа:
39-42 - AGTY
46 – G (Встречается у многих групп)
138 – G (Встречается у многих групп)
169 – G
215 – G
2 группа:
39-42 - AGSY
46 – G
96 – D (встречается у нескольких групп)
168 – S
182 – G
205 – Y
209 – T
251 – G
253 – M
Таблицу можно посмотреть здесь: uniprot-database_(type_pfam+PF13944).xlsx
[1] -https://www.ebi.ac.uk/interpro/entry/InterPro/IPR012674/