Практикум 9. Выравнивание последовательностей

Для этого практикума был написан код на Python: ссылка на Colab.

1. Глобальное парное выравнивание гомологичных белков

**Таблица 1.** Характеристики глобального парного выравнивания трёх пар белков
Protein name	ID 1	ID 2	Score	% Identity	% Similarity	Gaps	Indels
Sulfur carrier protein ThiS	THIS_ECOLI	THIS_BACSU	42.0	20.9%	44.8%	2	2
Phosphomethylpyrimidine synthase	THIC_ECOLI	THIC_BACSU	2156.0	63.8%	75.4%	65	10
Quinolinate synthase	NADA_ECOLI	NADA_BACSU	319.0	23.5%	42.1%	111	16

2. Локальное парное выравнивание гомологичных белков

**Таблица 2.** Характеристики локального парного выравнивания трёх пар белков
Protein name	ID 1	ID 2	Score	% Identity	% Similarity	Gaps	Indels	Coverage 1	Coverage 2
Sulfur carrier protein ThiS	THIS_ECOLI	THIS_BACSU	45.0	22.0%	48.0%	0	0	74.24%	74.24%
Phosphomethylpyrimidine synthase	THIC_ECOLI	THIC_BACSU	2165.5	66.6%	78.5%	50	7	95.09%	97.29%
Quinolinate synthase	NADA_ECOLI	NADA_BACSU	329.0	25.8%	46.2%	77	13	89.34%	94.29%

3. Результат применения программ выравнивания к неродственным белкам

**Таблица 3.** Характеристики глобального и локального парного выравнивания пары негомологичных белков
ID 1, Protein name 1	ID 2, Protein name 2	Выравнивание	Score	% Identity	% Similarity	Gaps	Indels	Coverage 1	Coverage 2
IVY_ECOLI, Inhibitor of vertebrate lysozyme	KIND_BACSU, Sporulation kinase D	Глобальное	24.5	5.7%	11.9%	395	8	-	-
IVY_ECOLI, Inhibitor of vertebrate lysozyme	KIND_BACSU, Sporulation kinase D	Локальное	32.0	22.4%	46.9%	4	2	30.57%	8.7%

Процент индентичных букв в глобальном выравнивании неродственных белков значительно ниже, чем у родственных; в локальном – даже выше, чем в случае Sulfur carrier protein ThiS. Процент похожих букв в глобальном существенно ниже. В локальном – выше, чем при выравнивании Quinolinate synthase. Количество гэпов в глобальном выравнивании негомологичной пары сильно выше, чем в выравнивании гомологичных. Также стоит отметить низкий вес этих выравниваний, при том, что оба белка длиннее самого короткого из гомологичных пар.

4. Множественное выравнивание белков и импорт в Jalview

В этой части я выравниваю последовательности семи белков мнемоники NADA (рекомендованное имя ECOLI: Quinolinate synthase). Всего в Swiss-Prot их нашлось 247. Я решила выбирать из белков, существование которых доказано экспериментально, а также принадлежащих максимально таксономически отдалённым организмам. В итоге для множественного выравнивания я выбрала: NADA_ARATH (Arabidopsis thaliana), NADA_NEUCR (Neurospora crassa), NADA_APLKU (Aplysia kurodai), NADA_PYRFU (Pyrococcus furiosus), NADA_THEMA (Thermotoga maritima).

Файлы были получены через функцию Fetch sequences в Jalview. Выравнивание строилось программой Muscle с параметрами по умолчанию. Способ окраски Percentage identity со степенью консервативности 10.

**Рисунок 1.** Множественное выравнивание семи последовательностей белков мнемоники NADA

Ссылка на скачивание проекта Jalview

Несмотря на наличие длинных инделов (в основном зависящих от NADA_ARATH), у последовательностей есть высоко консервативные участки (хотя общие для всех семи не обнаружены). Это участки: 268-273, 279-295, 305-311, 328-340, 356-363, 385-400, 412-418, 438-439, 443-451, 489-497, 510-512, 516-521, 538-542, 570-572, 647-655, 697-702. В т.ч. общиее для 6/7 белков: E286, F333, C363, P385, N395, P438, C491, V493, F497, H517, G540. Присутствие высоко консервативных участков в таком количестве говорит об общности происхождения этих белков.

*6. Подсчёт инделей

Написала код в Python для подсчета инделей в файлах needle и water. Кажется, он даже работает. Ссылка на Colab с кодом.