Все выравнивания проводились с использованием матрицы BLOSUM62
и стандартных штрафов за открытие гэпа (10) и его продление (0.5).
Команда для запуска алгоритма выравнивания:
[needle | water] -asequence file1 -bsequence file2 -gapopen 10
-gapextend 0.5 -datafule EBLOSUM62 -outfile result_file
Таблица рецензированных белков были скачаны
со страниц поисковой выдачи. Поисковые запросы для белков бактерий:
Escherichia coli (strain K12): (organism_id:83333) AND (reviewed:true)
Bacillus subtilis (strain 168): (organism_id:224308) AND (reviewed:true)
Protein Name | ID 1 | ID 2 | Score | % Ideintity | % Similaruty | Gaps | Indels |
---|---|---|---|---|---|---|---|
Phosphocarrier protein HPr | PTHP_ECOLI | PTHP_BACSU | 145.0 | 33.7% | 57.3% | 5 | 2 |
Small ribosomal subunit protein uS12 | RS12_ECOLI | RS12_BACSU | 463.0 | 67.4% | 73.9% | 14 | 2 |
2-iminobutanoate/2-iminopropanoate deaminase | RIDA_ECOLI | RIDA_BACSU | 316.0 | 49.2% | 64.1% | 3 | 1 |
Protein Name | ID 1 | ID 2 | Score | % Ideintity | % Similaruty | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Phosphocarrier protein HPr | PTHP_ECOLI | PTHP_BACSU | 151.0 | 35.8% | 60.5% | 0 | 0 | 95.29% | 92.04% |
Small ribosomal subunit protein uS12 | RS12_ECOLI | RS12_BACSU | 463.0 | 67.9% | 74.5% | 13 | 1 | 100.00% | 99.27% |
2-iminobutanoate/2-iminopropanoate deaminase | RIDA_ECOLI | RIDA_BACSU | 317.0 | 50.0% | 64.3% | 3 | 1 | 98.44% | 98.40% |
Оба метода показывают высокие значения оценки (~463), идентичности (~67-68%) и сходства (~74%), что говорит о гомологичности белков по всей их длине. Крупный индель в начале выравнивания может свидетельствовать о делеции нефункционального участка у белка кишечной палочки. Локальное выравнивание лишь незначительно улучшило параметры, что указывает на высокую консервативность на протяжении всей длины белковы. В отличие от сравнения прошлых выравниваний, в данном случае оба алгоритма оказались одинаково информативными/
Белки можно считать гомологичными по всей длине: выравнивания имеют близкие и достаточно высокие значения сходства (около 50%). Гомологичные участки присутствуют, и локальное выравнивание выявило более точное совпадение в ключевых областях (Score=317 vs 316), пусть даже и с минимальными различиями. Оба метода оказались достаточно информативными, с небольшой разциней в пользу локального выравнивания. Оно сохранило gaps и инделы, но увеличило Score и Identity. Возможно, глобальный метод "пожертвовал" парой совпадений для сохранения общей структуры, тогда как локальный оптимизировал выравнивание в критических участках.
Были выполнены глобальное и локальное парное выравнивание негомологичных белков PTHP_ECOLI и RS12_BACSU.
Algorithm | ID 1 | ID 2 | Score | % Ideintity | % Similaruty | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
needle | PTHP_ECOLI | RS12_BACSU | 26.0 | 14.1% | 22.4% | 89 | 7 | – | – |
water | PTHP_ECOLI | RS12_BACSU | 34.0 | 29.0% | 43.5% | 10 | 4 | 78.82% | 44.20% |
89 гэпов... Куда столько...
Проценты идентичности и сходства значительно выше, а количества гэпов и инделей значительно ниже. Однако нужно помнить, что так как белки имеют совершенно разные происхождения и функции, оба выравнивания являются одинаково бессмысленными.
Выбранный белок: RS12_* – белок малой субъединицы рибосомы. С помощью запроса (reviewed:true) AND (id:RS12_*) находятся 882 результата, среди которых белки как прокариот, так и эукариот. Поскольку рибосомы этих групп имеют принципиальные отличия, я буду рассматривать исключительно белки прокариотов. Всего таких белков 796, получить их список можно по запросу (reviewed:true) AND (id:RS12_*) AND (taxonomy_id:2). Для выравнивания я выбрал следующие 5 белков (помимо белков кишечной и сенной палочек): RS12_THETH, RS12_MYCTU, RS12_RHOPA, RS12_MAGMM и RS12_CHRFK.
Выравнивание было выполнено с использованием установленной на kodomo программы mafft, все файлы
сохранялись в папке ~/term2/pr9/alignment.
Я создал файл RS12.txt, представляющий из себя список USA для 7 рассматриваемых белков, затем с помощью команды
seqret @RS12.txt RS12.fasta
получил fasta-файл с нужными последовательностями. Далее ввел команду mafft и в консоли указал имя входного и выходного файлов,
формат вывода (4. Fasta format / Input orded) и стратегию (FFT-NS-2 (default)). Полученный файл
скачал на свой компьютер.
Я открыл файл в Jalview и установил набор цветов Clustal и порог
консервативности (By conservation) 20. Значительное количество позиций совпадают, а подавляющее большинство схожие.
У 6 из 7 выравниваний был индель с 26 по 37 аминокислоту (кроме RS12_BACSU). Можно предположить, что его отсутствие у белка сенной палочки
связано с инсерцией в кодирующую ее последовательность ДНК, причем длина вставленной нуклеотидной последовательности кратна трём.
У последовательностей разные (негомологичные) окончания, особенно выделяется RS12_THETH за счет "дополнительных" 8 аминокислот.
Файл проекта Jalview расположен здесь.