Практикум 9. Выравнивание последовательностей


Для этого практикума был написан код на Python: ссылка на Colab.

1. Глобальное парное выравнивание гомологичных белков

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Sulfur carrier protein ThiS THIS_ECOLI THIS_BACSU 42.0 20.9% 44.8% 2 2
Phosphomethylpyrimidine synthase THIC_ECOLI THIC_BACSU 2156.0 63.8% 75.4% 65 10
Quinolinate synthase NADA_ECOLI NADA_BACSU 319.0 23.5% 42.1% 111 16

2. Локальное парное выравнивание гомологичных белков

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Sulfur carrier protein ThiS THIS_ECOLI THIS_BACSU 45.0 22.0% 48.0% 0 0 74.24% 74.24%
Phosphomethylpyrimidine synthase THIC_ECOLI THIC_BACSU 2165.5 66.6% 78.5% 50 7 95.09% 97.29%
Quinolinate synthase NADA_ECOLI NADA_BACSU 329.0 25.8% 46.2% 77 13 89.34% 94.29%

3. Результат применения программ выравнивания к неродственным белкам

Таблица 3. Характеристики глобального и локального парного выравнивания пары негомологичных белков
ID 1, Protein name 1 ID 2, Protein name 2 Выравнивание Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
IVY_ECOLI, Inhibitor of vertebrate lysozyme KIND_BACSU, Sporulation kinase D Глобальное 24.5 5.7% 11.9% 395 8 - -
Локальное 32.0 22.4% 46.9% 4 2 30.57% 8.7%

Процент индентичных букв в глобальном выравнивании неродственных белков значительно ниже, чем у родственных; в локальном – даже выше, чем в случае Sulfur carrier protein ThiS. Процент похожих букв в глобальном существенно ниже. В локальном – выше, чем при выравнивании Quinolinate synthase. Количество гэпов в глобальном выравнивании негомологичной пары сильно выше, чем в выравнивании гомологичных. Также стоит отметить низкий вес этих выравниваний, при том, что оба белка длиннее самого короткого из гомологичных пар.


4. Множественное выравнивание белков и импорт в Jalview

В этой части я выравниваю последовательности семи белков мнемоники NADA (рекомендованное имя ECOLI: Quinolinate synthase). Всего в Swiss-Prot их нашлось 247. Я решила выбирать из белков, существование которых доказано экспериментально, а также принадлежащих максимально таксономически отдалённым организмам. В итоге для множественного выравнивания я выбрала: NADA_ARATH (Arabidopsis thaliana), NADA_NEUCR (Neurospora crassa), NADA_APLKU (Aplysia kurodai), NADA_PYRFU (Pyrococcus furiosus), NADA_THEMA (Thermotoga maritima).

Файлы были получены через функцию Fetch sequences в Jalview. Выравнивание строилось программой Muscle с параметрами по умолчанию. Способ окраски Percentage identity со степенью консервативности 10.

Рисунок 1. Множественное выравнивание семи последовательностей белков мнемоники NADA

Ссылка на скачивание проекта Jalview

Несмотря на наличие длинных инделов (в основном зависящих от NADA_ARATH), у последовательностей есть высоко консервативные участки (хотя общие для всех семи не обнаружены). Это участки: 268-273, 279-295, 305-311, 328-340, 356-363, 385-400, 412-418, 438-439, 443-451, 489-497, 510-512, 516-521, 538-542, 570-572, 647-655, 697-702. В т.ч. общиее для 6/7 белков: E286, F333, C363, P385, N395, P438, C491, V493, F497, H517, G540. Присутствие высоко консервативных участков в таком количестве говорит об общности происхождения этих белков.


*6. Подсчёт инделей

Написала код в Python для подсчета инделей в файлах needle и water. Кажется, он даже работает. Ссылка на Colab с кодом.