Домены pfam
Мною было выбрано семейсвто доменов, которые входят в состав спайковых гликопротеидов коронавирусов, под названием Coronavirus spike glycoprotein S2, intravirion. Оно имеет AC PF19214, ID в Pfam CoV_S2_C. Для данного семейства описана выборка из 31 последовательности в seed, тогда как в выборке full находится 63 последовтельности. Число доменных архитектур описываемого семейства - 13.
AC pfam | ID pfam | #SEED | #All | #SW | #architectures | #3D | Taxonomy |
PF19214 | CoV_S2_C | 31 | 63 | 45 | 13 | 4 | Viruses |
Интересно, что выбранный мной домен богат остатками цистеина, необоходимого для спецефического навешивания жирных кислот. Сам по себе данный домен принадлежит составляющей спайкового гликопротеида вирусов. Основная функция таких гликпротеидов - облегчение интеграции вириона в мембрану клетки хозяина. Соответсвенно, для этого необходима гидрофобность элементов. И именно навешивание жирных кислот через остатки цистеина, или другими слоовами S-пальмитоилирование, увеличивает гидрофобность элементов, учавствующих в слиянии.
С помощью Jalview поледовтельности выборки были выровнены, после чего выравнивание было окрашено с помощью Clustal. Файл с выравниваниванием.
При подробном изучении выравнивания seed я обнаружила, что не находится ни единого достоверного блока длиной более 1 аминокислоты. В целом, это неудивительно, так как, во-первых, поледовтельности вирусного происходжения и соотвественно имеют сравнительно малую длину, во-вторых, для выполнения своей функции по сути необходима консервативность только в отельных единичных аминокислотах.
Таким образом, полная консервативность для всех последовательностей наблюдается в положениях: 6, 8. Однако все-таки наблюдается частичное сходство в окружающих, эти аминокслоты, положениях. Так, можно выделить блок 6-7-8, который включает все последовательности за исключением четырех. При этом в выравнивании есть и регион, по выравниванию которого не образуется ни одной группы общей даже для двух последовтельностей - 20-60. Я предполагаю, что такой протяженый "бессмысленный" в смысле выравнивая регион возникает опять же из-за природы последовтельностей. Во-первых, возможно такое явление является следствием высокой вариантивностью вирусных белков в целом, а во-вторых, возможно эта часть домена и не учавствует в выполнении ключевой функции белка, а затем не обязана быть высокоспецефичной.
Далее мною были рассмотрены последовательности белков, содержащих домен описываемого семейства, однако имеющих различные доменные архитектуры. Информация о последовтельностях представлена в таблице:
Доменная архитектура 1 | Белок с архитектурой 1 | Доменная архитектура 2 | Белок с архитектурой 2 |
PF01600-PF19209-PF01601-PF19214 | Spike glycoprotein P10033·SPIKE_FIPV | PF16451 - PF09408 - PF19209 - PF01601 - PF19214 | Spike glycoprotein P11225·SPIKE_CVMJH |
Далее был построен DotPlot для данных последовтельностей. Результат ожидаем, начиная со второго домена в каждом их белков наблюдается сходство, так как архитектура идентична. В начале поледовательностей каждого белка, сходства нет, так как тут представлены разные доменыы.