Protein name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
3-isopropylmalate dehydratase large subunit | LEUC_ECOLI | LEUC_BACSU | 1492.5 | 59.1% | 74.0% | 16 | 4 |
8-oxo-dGTP diphosphatase* | MUTT_ECOLI | MUTT_BACSU | 88.0 | 21.3% | 36.7% | 60 | 10 | ADP-ribose pyrophosphatase | ADPP_ECOLI | ADPP_BACSU | 171.5 | 29.4% | 46.4% | 34 | 11 |
Protein name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
3-isopropylmalate dehydratase large subunit | LEUC_ECOLI | LEUC_BACSU | 1494.5 | 60.4% | 75.6% | 9 | 2 | 99.4% | 97.9% |
8-oxo-dGTP diphosphatase* | MUTT_ECOLI | MUTT_BUCSU | 97.0 | 29.9% | 52.3% | 14 | 6 | 79.0% | 65.8% |
ADP-ribose pyrophosphatase | ADPP_ECOLI | ADPP_BACSU | 176 | 32.8% | 50.4% | 20 | 9 | 89.5% | 95.7% |
* У B. subtilis белок называется Putative 8-oxo-dGTP diphosphatase.
Тенденции в локальном и глобальном выравниваниях для гомологичных белков повторяются. Можно отметить, что первый белок LEUC является высоко консервативным, другие два намного менее консервативны. Можно сказать, что первая и третья пара белков гомологчины почти по всей длине. Хотя у третьего выравнивания низкие параметры схожести. Вторая пара гомологична на участке.
Algorithm | Protein name 1 | Protein name 2 | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|---|---|
Needleman-Wunsch (global) | High-affinity zinc uptake system membrane protein ZnuB | Zinc-specific metallo-regulatory protein | ZNUB_ECOLI | ZUR_BACSU | 8.0 | 0.5% | 0.8% | 394 | 2 | ||
Smith-Waterman (local) | High-affinity zinc uptake system membrane protein ZnuB | Zinc-specific metallo-regulatory protein | ZNUB_ECOLI | ZUR_BACSU | 31.0 | 21.4% | 30.0% | 36 | 2 | 13.0% | 47.6% |
Были взяты очень разные белки, начиная размером и функцией, заканчивая положением в клетке. Поэтому у них очень низкие параметры сходства, глобальное выравнивание практически полностью состоит из гэпов. Локальное выравнивание выдало небольшой похожий кусочек, можно было бы предположить, что он отвечает за единственную общую черту этих белков — связывание с цинком, но в этом участке не просто нет отрицательно заряженых АК, но и выравнено много положительно заряженых лизинов, то есть, скорее всего, это совпадение случано и не несет функционального смысла. Возможно, это какой-то структурный паттерн, но так как один из белков мембранный, а другой находится в цитоплазме, это тоже достаточно неочевидно. Тем не менее можно сделать вывод, что глобальное выравнивание оказывается практически бесполезным для негомологичных белков, а локальное может позволить найти похожие участки этих белков, хоть для моих белков это вышло в общем-то безрезультатно.
Выберем для множественного выравнивания белки с мнемоникой LEUC, что означает 3-изопропилмалат дегидратазу (3-isopropylmalate dehydratase large subunit — название для E. coli). Для этого использовалась команда:
Всего было найдено 539 записей, из них 5 были выбраны случайным образом. Их ID были занесены в отдельный файл, по которому была использована программа seqret, чтобы записать все последовательности выбранных белков в один fasta-файл.
Затем этот файл использовала программа muscle для построения множественного выравнивания:
Далее это выравнивание визуизировалось с помощью программы JalView, ссылка на проект.
На мой взгляд, все белки хорошо выровнялись, практически нет гепов и инделей, индели есть только у двух записей — LEUC_SULTO и LEUC_CLOK5 (участки выравнивания 81-89, 258-269, 308-339), причем эти индели в одинаковых местах, то есть их последовательности схожи, при этом они отличаются от остальных, хотя эти виды совсем не близки по таксономии. Особенно консервативные участки: 112-161, 431-449. Малоконсервативные участки: 74-110, 258-293, 303-348.