Выравнивания

Парные выравнивания

Гомологичные белки

Для следующих трех пар белков (указаны в таблицах) предоставлены характеристики глобального выравнивания алгоритмом Нидлмана-Вунша и локального выравнивания алгоритмом Смита-Ватермана.

Таблица 1. Характеристики глобального парного выравнивания UvrB, LexA и AroC из E.coli и B.subtilis.
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
UvrABC system protein B UVRB_ECOLI UVRB_BACSU 2048.5 58.5% 77.7% 12 4
LexA repressor LEXA_ECOLI LEXA_BACSU 296.5 32.7% 51.2% 15 5
Chorismate synthase AROC_ECOLI AROC_BACSU 509.5 35.1% 51.1% 59 16
Таблица 2. Характеристики локального парного выравнивания UvrB, LexA и AroC из E.coli и B.subtilis.
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
UvrABC system protein B UVRB_ECOLI UVRB_BACSU 2055.5 59.2% 78.5% 8 3 99.0% 99.5%
LexA repressor LEXA_ECOLI LEXA_BACSU 300.5 33.5% 52.4% 13 4 97.5% 98.5%
Chorismate synthase AROC_ECOLI AROC_BACSU 518.5 36.9% 54.4% 39 12 93.1% 93.6%

Анализируя характеристики выравнивания можно увидеть, что белки гомологичны почти по всей длине (у первых двух не выравнились алгоритмом Смита-Ватермана только концы белков, а для последнего еще и самое начало, но выравнивание центральных частей всех трех пар белков была идентична для двух алгоритмов). Таким образом локальное выравнивание не очень информативно в данном случае.

Стоит отметить, в UvrB высок уровень схожих аминокислот и мало гэпов, в LexA гэпов мало, но уровень схожих аминокислот низок, а для AroC и уровень схожих аминокислот низок, и число гэпов велико.
Это можно объяснить тем, что UvrB очень консервативный белок (репарация ДНК - важнейший процесс жизни прокариот, а UvrB играет важную роль в эксцизионной репарации нуклеотидов (NER)).
LexA тоже учавствует в репарации, но не NER, а в SOS-репарации, он блокирует транскрипцию поврежденных участков, видимо нужна лишь консервативная структура белка, он не узнает, как UvrB геометрию нуклеотидов, и не является ключевым белком, связывающим два белка (UvrA и UvrC) и ДНК.
Для хоризматсинтазы AroC видимо лишь важна консервативность реакционного центра и его окружения, а остальная часть белка довольна вариабельная.

Негомологичные белки

Для выравнивания негомологичных белков были взяты киназа нуклеозиддифосфатов из Escherichia coli (ID1: NDK_ECOLI) и белок AbrB из Bacillus subtilis (важный регулятор транскрипции, ID2: ABRB_BACSU).

Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Глобальное выравнивание
алгоритм Нидлмана-Вунша
18.0 10.5% 20.5% 103 6 100% 100%
Локальное выравнивание
алгоритм Смита-Ватермана
26.5 27.9% 44.2% 6 3 30.1% 38.5%

Стоит отметить, что оба алгоритма выдали выравнивания с очень низким весом, по сравнению с выравниванием гомологичных белков (низкий процент схожих и идентичных аминокислот, и это подтверждает, что белки негомологичны), а также очень низкое покрытие в локальном выравнивании. Оба белка узнают нуклеотиды, найденный участок может быть важен для узнавания нуклеотидов, но для поиска реакционных центров лучше использовать множественные выравнивания для гомологичных белков, ведь парные выравнивания негомологичных белков неинформативны или малоинформативны.

Множественное выравнивание

Для множественного выравнивания был выбран белок UvrABC system protein B (UBRB).

Количество таких белков было определено следующим образом:
infoseq 'sw:UVRB_*' -only -name -nohead -out uvrb.txt
wc -l < uvrb.txt
Получилось 377 белков.

Для множественного выравнивания были выбраны UVRB_CLOBK, UVRB_ECOLI, UVRB_BACCA, UVRB_MYCTU, UVRB_BACSU, UVRB_STAAN, UVRB_THET8.

Само выравнивание строилось следующим образом:
Был создан новый файл uvrb.txt содержащий 7 мнемоник, и были получены последовательности этих белков следующей командой:
seqret @uvrb.txt uvrb.fasta
Затем было получено непосредственное выравнивание c помощью команды muscle:
muscle -align uvrb.fasta -output uvrb_alignment.fasta

Ссылка на выравнивание: UvrB_aligment.

Как видно из выравнивания, все белки гомологичны (с 28 по 625 колонки большой консервативный участок, нет гэпов больше чем 1, есть 429 столбец, там лишь у Escherichia coli и Mycobacterium tuberculosis стоит глицин, но эта аминокислота с маленьким радикалом и мало влияет на аритектуру белка, помимо 429 столбца гэпы в 33, 209, 230, 231, 276 колонках в одной или двух последовательностях).
Лишь хвосты белков вариабельны: с 1 по 27 и с 626 по 732 колонку, но с 670 по 712 тоже консервативный участок, возможно это малофункциальные участки.

Также следует отметить два высококонсервативных участка (109-124, 524-568), наверное, это важные для функицонирования белков участки.