Описание семейства доменов Calycin_like

Методом научного тыка было выбрано семейство Calycin_like

Семейство кальциноподобных белков является частью крупного надсемейства кальцинов, объединяющего липокалины, белки, связывающие жирные кислоты, триабин и ингибитор тромбина. Их объединяют из-за образования характерной структуры - β-barrel structures (β-бочонок)[1].

Информация о семействе

• Общее число последовательностей (full) = 188, число последовательностей в выравнивании seed = 40

• Число доменных архитектур – 11, из которых только 3 имеют количество последовательностей больше 20: Calycin_like (85), Calycin_like, PCMD (34) и Calycin_like x 2 (24)

• Из них я взяла первые две - Calycin_like (85) и Calycin_like, PCMD (34)

• 3D структура есть только у одного белка – мнимого липопротеина (Q5LBW6) или Putative lipoprotein

• Белки встречаются у 93 видов, при чем все эти виды относятся к суперцарству Bacteria. 59 последовательностей относятся к искусственно выделенному царству – Uncategorised bacterium, то есть систематически не определены. Остальные разделяются на классы Bacteroidia (97 последовательностей, 61 вид) и Flavobacteriia (1 последовательность, 1 вид)

• Дата создания HMM профиля – февраль 2015 года. Всего позиций – 123

Ссылка на HMM профиль: Calycin_like.hmm

Карта локального сходства (Dot Plot)

Карта строилась по белкам двух доменных архитектур: Calycin_like и Calycin_like, PCMD.

Рисунок 1: Карта локального сходства

Заметно, что есть 7 участков, где происходила делеция или вставка, длиной от 1 (12-14) ак остатка до 8 (42-50).

Выравнивания доменов и выделение подгрупп по сходству

Ссылка на проект Jalview: pr11-project.jvp

В выравнивании использовалось 188 последовательностей (full). Само выравнивание скачивалось в формате fasta.

Удалять совпадающие последовательности не пришлось, так как процент их сходства оказался очень низким. На самом деле, такое отсутствие сходства наводит на мысль, что, возможно, семейство объединяет эволюционно далекие белки, имеющие конвергентную структуру в виде β-бочонка.

Группы выделялись на основе сходства на участке 39-42. Возьмем для сравнения группы 1 и 3 (желтая и синяя соответственно), потому что во вторую группу были включены последовательности, у которых на этом месте стояли гэпы. 1 группа состоит из 24 последовательностей, 3 группа – из 9. Дальше идут еще две многочисленные группы (8 и 7 последовательностей), 8 групп примерно по 5 последовательностей (6, 5 и 4), а остальные содержат одну-две последовательности (их около 100).

Рассмотрим участки сходства.

1 группа:

39-42 - AGTY

46 – G (Встречается у многих групп)

138 – G (Встречается у многих групп)

169 – G

215 – G

2 группа:

39-42 - AGSY

46 – G

96 – D (встречается у нескольких групп)

168 – S

182 – G

205 – Y

209 – T

251 – G

253 – M

Таблица со всеми белками из UniProt с доменом семейства

Таблицу можно посмотреть здесь: uniprot-database_(type_pfam+PF13944).xlsx

Ссылки на литературу

[1] -https://www.ebi.ac.uk/interpro/entry/InterPro/IPR012674/