Для получения списков идентификаторов пользовался поиском в UniProt и сохранением в формате Excel.
Далее я объединял таблицы Excel и сортировал их по алфавиту для нахождения одинаковых мнемоник функций.
После получения выравниваний была составлена следующая таблица:
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
DNA primase | DNAG_ECOLI | DNAG_BACSU | 716.5 | 30.3% | 46.1% | 70 | 18 |
Thiazole synthase | THIG_ECOLI | THIG_BACSU | 567.0 | 47.1% | 66.0% | 6 | 3 |
DNA gyrase subunit A | GYRA_ECOLI | GYRA_BACSU | 2227.0 | 50.7% | 68.6% | 72 | 7 |
Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
DNA primase | DNAG_ECOLI | DNAG_BACSU | 717.5 | 31.2% | 47.4% | 49 | 16 | 98.1% | 95.4% |
Thiazole synthase | THIG_ECOLI | THIG_BACSU | 572.0 | 48.6% | 68.1% | 1 | 1 | 97.7% | 98.0% |
DNA gyrase subunit A | GYRA_ECOLI | GYRA_BACSU | 2228.0 | 52.6% | 71.3% | 38 | 4 | 96.1% | 98.1% |
Проведем глобальное и локальное выравнивание с белками DNAG_ECOLI и THIG_BACSU. Результаты представлены в таблице ниже:
Таблица 3. Характеристики выравниваний негомологичных белков
Alignment Type | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
Global | DNAG_ECOLI | THIG_BACSU | 65.5 | 10.4% | 17.1% | 389 | 14 | - | - |
Local | DNAG_ECOLI | THIG_BACSU | 76.5 | 21.3% | 34.8% | 65 | 10 | 43.0% | 85.5% |
Для мнемоники функции DNAG (DNA primase) я нашел все белки в Swiss-Prot. Всего их нашлось 122. Я выбрал из них белки организмов (помимо ECOLI и BACSU):
Белки выровнялись очень хорошо в консервативных участках, за исключением белка из Halobacterium salinarum, что логично, т.к. это единственная архея. Я думаю, что все 7 белков гомологичны, т.к. все они очень похожи в участках 273-295, 324-332 и 347-361. Все организмы, кроме Halobacterium salinarum также очень похожи на участке 41-90. В целом можно сказать, что N-конец белка более консервативен.