Домены pfam

1. Выбор семества доменов

Мною было выбрано семейсвто доменов, которые входят в состав спайковых гликопротеидов коронавирусов, под названием Coronavirus spike glycoprotein S2, intravirion. Оно имеет AC PF19214, ID в Pfam CoV_S2_C. Для данного семейства описана выборка из 31 последовательности в seed, тогда как в выборке full находится 63 последовтельности. Число доменных архитектур описываемого семейства - 13.

AC pfam ID pfam #SEED #All #SW #architectures #3D Taxonomy
PF19214 CoV_S2_C 31 63 45 13 4 Viruses

Интересно, что выбранный мной домен богат остатками цистеина, необоходимого для спецефического навешивания жирных кислот. Сам по себе данный домен принадлежит составляющей спайкового гликопротеида вирусов. Основная функция таких гликпротеидов - облегчение интеграции вириона в мембрану клетки хозяина. Соответсвенно, для этого необходима гидрофобность элементов. И именно навешивание жирных кислот через остатки цистеина, или другими слоовами S-пальмитоилирование, увеличивает гидрофобность элементов, учавствующих в слиянии.

2. Гомология последовтельностей выборки seed

С помощью Jalview поледовтельности выборки были выровнены, после чего выравнивание было окрашено с помощью Clustal. Файл с выравниваниванием.

При подробном изучении выравнивания seed я обнаружила, что не находится ни единого достоверного блока длиной более 1 аминокислоты. В целом, это неудивительно, так как, во-первых, поледовтельности вирусного происходжения и соотвественно имеют сравнительно малую длину, во-вторых, для выполнения своей функции по сути необходима консервативность только в отельных единичных аминокислотах.

Таким образом, полная консервативность для всех последовательностей наблюдается в положениях: 6, 8. Однако все-таки наблюдается частичное сходство в окружающих, эти аминокслоты, положениях. Так, можно выделить блок 6-7-8, который включает все последовательности за исключением четырех. При этом в выравнивании есть и регион, по выравниванию которого не образуется ни одной группы общей даже для двух последовтельностей - 20-60. Я предполагаю, что такой протяженый "бессмысленный" в смысле выравнивая регион возникает опять же из-за природы последовтельностей. Во-первых, возможно такое явление является следствием высокой вариантивностью вирусных белков в целом, а во-вторых, возможно эта часть домена и не учавствует в выполнении ключевой функции белка, а затем не обязана быть высокоспецефичной.

3. Dot Plot

Далее мною были рассмотрены последовательности белков, содержащих домен описываемого семейства, однако имеющих различные доменные архитектуры. Информация о последовтельностях представлена в таблице:

Доменная архитектура 1 Белок с архитектурой 1 Доменная архитектура 2 Белок с архитектурой 2
PF01600-PF19209-PF01601-PF19214 Spike glycoprotein P10033·SPIKE_FIPV PF16451 - PF09408 - PF19209 - PF01601 - PF19214 Spike glycoprotein P11225·SPIKE_CVMJH

Далее был построен DotPlot для данных последовтельностей. Результат ожидаем, начиная со второго домена в каждом их белков наблюдается сходство, так как архитектура идентична. В начале поледовательностей каждого белка, сходства нет, так как тут представлены разные доменыы.

dodododo