Для этого практикума был написан код на Python: ссылка на Colab.
Protein name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Sulfur carrier protein ThiS | THIS_ECOLI | THIS_BACSU | 42.0 | 20.9% | 44.8% | 2 | 2 |
Phosphomethylpyrimidine synthase | THIC_ECOLI | THIC_BACSU | 2156.0 | 63.8% | 75.4% | 65 | 10 |
Quinolinate synthase | NADA_ECOLI | NADA_BACSU | 319.0 | 23.5% | 42.1% | 111 | 16 |
Protein name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Sulfur carrier protein ThiS | THIS_ECOLI | THIS_BACSU | 45.0 | 22.0% | 48.0% | 0 | 0 | 74.24% | 74.24% |
Phosphomethylpyrimidine synthase | THIC_ECOLI | THIC_BACSU | 2165.5 | 66.6% | 78.5% | 50 | 7 | 95.09% | 97.29% |
Quinolinate synthase | NADA_ECOLI | NADA_BACSU | 329.0 | 25.8% | 46.2% | 77 | 13 | 89.34% | 94.29% |
ID 1, Protein name 1 | ID 2, Protein name 2 | Выравнивание | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
IVY_ECOLI, Inhibitor of vertebrate lysozyme | KIND_BACSU, Sporulation kinase D | Глобальное | 24.5 | 5.7% | 11.9% | 395 | 8 | - | - |
Локальное | 32.0 | 22.4% | 46.9% | 4 | 2 | 30.57% | 8.7% |
Процент индентичных букв в глобальном выравнивании неродственных белков значительно ниже, чем у родственных; в локальном – даже выше, чем в случае Sulfur carrier protein ThiS. Процент похожих букв в глобальном существенно ниже. В локальном – выше, чем при выравнивании Quinolinate synthase. Количество гэпов в глобальном выравнивании негомологичной пары сильно выше, чем в выравнивании гомологичных. Также стоит отметить низкий вес этих выравниваний, при том, что оба белка длиннее самого короткого из гомологичных пар.
В этой части я выравниваю последовательности семи белков мнемоники NADA (рекомендованное имя ECOLI: Quinolinate synthase). Всего в Swiss-Prot их нашлось 247. Я решила выбирать из белков, существование которых доказано экспериментально, а также принадлежащих максимально таксономически отдалённым организмам. В итоге для множественного выравнивания я выбрала: NADA_ARATH (Arabidopsis thaliana), NADA_NEUCR (Neurospora crassa), NADA_APLKU (Aplysia kurodai), NADA_PYRFU (Pyrococcus furiosus), NADA_THEMA (Thermotoga maritima).
Файлы были получены через функцию Fetch sequences в Jalview. Выравнивание строилось программой Muscle с параметрами по умолчанию. Способ окраски Percentage identity со степенью консервативности 10.
Ссылка на скачивание проекта Jalview
Несмотря на наличие длинных инделов (в основном зависящих от NADA_ARATH), у последовательностей есть высоко консервативные участки (хотя общие для всех семи не обнаружены). Это участки: 268-273, 279-295, 305-311, 328-340, 356-363, 385-400, 412-418, 438-439, 443-451, 489-497, 510-512, 516-521, 538-542, 570-572, 647-655, 697-702. В т.ч. общиее для 6/7 белков: E286, F333, C363, P385, N395, P438, C491, V493, F497, H517, G540. Присутствие высоко консервативных участков в таком количестве говорит об общности происхождения этих белков.
Написала код в Python для подсчета инделей в файлах needle и water. Кажется, он даже работает. Ссылка на Colab с кодом.