Для следующих трех пар белков (указаны в таблицах) предоставлены характеристики глобального выравнивания алгоритмом Нидлмана-Вунша и локального выравнивания алгоритмом Смита-Ватермана.
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
UvrABC system protein B | UVRB_ECOLI | UVRB_BACSU | 2048.5 | 58.5% | 77.7% | 12 | 4 |
LexA repressor | LEXA_ECOLI | LEXA_BACSU | 296.5 | 32.7% | 51.2% | 15 | 5 |
Chorismate synthase | AROC_ECOLI | AROC_BACSU | 509.5 | 35.1% | 51.1% | 59 | 16 |
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
UvrABC system protein B | UVRB_ECOLI | UVRB_BACSU | 2055.5 | 59.2% | 78.5% | 8 | 3 | 99.0% | 99.5% |
LexA repressor | LEXA_ECOLI | LEXA_BACSU | 300.5 | 33.5% | 52.4% | 13 | 4 | 97.5% | 98.5% |
Chorismate synthase | AROC_ECOLI | AROC_BACSU | 518.5 | 36.9% | 54.4% | 39 | 12 | 93.1% | 93.6% |
Анализируя характеристики выравнивания можно увидеть, что белки гомологичны почти по всей длине (у первых двух не выравнились алгоритмом Смита-Ватермана только концы белков, а для последнего еще и самое начало, но выравнивание центральных частей всех трех пар белков была идентична для двух алгоритмов). Таким образом локальное выравнивание не очень информативно в данном случае.
Стоит отметить, в UvrB высок уровень схожих аминокислот и мало гэпов, в LexA гэпов мало, но уровень схожих аминокислот низок, а для AroC и уровень схожих аминокислот низок, и число гэпов велико.
Это можно объяснить тем, что UvrB очень консервативный белок (репарация ДНК - важнейший процесс жизни прокариот, а UvrB играет важную роль в эксцизионной репарации нуклеотидов (NER)).
LexA тоже учавствует в репарации, но не NER, а в SOS-репарации, он блокирует транскрипцию поврежденных участков, видимо нужна лишь консервативная структура белка,
он не узнает, как UvrB геометрию нуклеотидов, и не является ключевым белком, связывающим два белка (UvrA и UvrC) и ДНК.
Для хоризматсинтазы AroC видимо лишь важна консервативность реакционного центра и его окружения, а остальная часть белка довольна вариабельная.
Для выравнивания негомологичных белков были взяты киназа нуклеозиддифосфатов из Escherichia coli (ID1: NDK_ECOLI) и белок AbrB из Bacillus subtilis (важный регулятор транскрипции, ID2: ABRB_BACSU).
Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 | |
---|---|---|---|---|---|---|---|
Глобальное выравнивание алгоритм Нидлмана-Вунша |
18.0 | 10.5% | 20.5% | 103 | 6 | 100% | 100% |
Локальное выравнивание алгоритм Смита-Ватермана |
26.5 | 27.9% | 44.2% | 6 | 3 | 30.1% | 38.5% |
Стоит отметить, что оба алгоритма выдали выравнивания с очень низким весом, по сравнению с выравниванием гомологичных белков (низкий процент схожих и идентичных аминокислот, и это подтверждает, что белки негомологичны), а также очень низкое покрытие в локальном выравнивании. Оба белка узнают нуклеотиды, найденный участок может быть важен для узнавания нуклеотидов, но для поиска реакционных центров лучше использовать множественные выравнивания для гомологичных белков, ведь парные выравнивания негомологичных белков неинформативны или малоинформативны.
Для множественного выравнивания был выбран белок UvrABC system protein B (UBRB).
Количество таких белков было определено следующим образом:
infoseq 'sw:UVRB_*' -only -name -nohead -out uvrb.txt
wc -l < uvrb.txt
Получилось 377 белков.
Для множественного выравнивания были выбраны UVRB_CLOBK, UVRB_ECOLI, UVRB_BACCA, UVRB_MYCTU, UVRB_BACSU, UVRB_STAAN, UVRB_THET8.
Само выравнивание строилось следующим образом:
Был создан новый файл uvrb.txt содержащий 7 мнемоник, и были получены последовательности этих белков следующей командой:
seqret @uvrb.txt uvrb.fasta
Затем было получено непосредственное выравнивание c помощью команды muscle:
muscle -align uvrb.fasta -output uvrb_alignment.fasta
Ссылка на выравнивание: UvrB_aligment.
Как видно из выравнивания, все белки гомологичны (с 28 по 625 колонки большой консервативный участок, нет гэпов больше чем 1, есть 429 столбец, там лишь у
Escherichia coli и Mycobacterium tuberculosis стоит
глицин, но эта аминокислота с маленьким радикалом и мало влияет на аритектуру белка, помимо 429 столбца гэпы в 33, 209, 230, 231, 276 колонках в одной или двух последовательностях).
Лишь хвосты белков вариабельны: с 1 по 27 и с 626 по 732 колонку, но с 670 по 712 тоже консервативный участок, возможно это малофункциальные участки.
Также следует отметить два высококонсервативных участка (109-124, 524-568), наверное, это важные для функицонирования белков участки.