Список идентификаторов был получен в командной строке с помощью командной строки. Для штамма K12 кишечной палочки:
infoseq ‘sw:*_ECOLI’ -only -name -nohead -out coli.txt
Для штамма 168 сенной палочки:
infoseq ‘sw:*_BACSU’ -only -name -nohead -out bacsu.txt.
Пары белков из двух списков, чьи идентификаторы имеют одинаковую мнемонику функции, также были получены с помощью командной строки. Сначала были созданы файлы ecoli_u.txt и bacsu_u.txt, в которых каждая мнемоника встречается один раз. Например, команда для сенной палочки:
cut -d '_' -f1 bacsu.txt | sort -u > bacsu_u.txt
Затем были отобраны идентификаторы встречающиеся и у кишечной палочки, и у сенной:
ccut -f 1 -d '_' ecoli_u.txt bacsu_u.txt | sort | uniq -d > common_mnems.txt
Были выбраны следующие идентификаторы: ACYP (Acylphosphatase), RF1 (Peptide chain release factor 1), PURU (Formyltetrahydrofolate deformylase).
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| Acylphosphatase | ACYP_ECOLI | ACYP_BACSU | 141.5 | 32.4 | 45.4 | 33 | 3 |
| Peptide chain release factor 1 | RF1_ECOLI | RF1_BACSU | 944.0 | 49.2 | 70.6 | 12 | 5 |
| Formyltetrahydrofolate deformylase | PURU_ECOLI | PURU_BACSU | 601.5 | 41.4 | 59.3 | 34 | 7 |
Названия приведенных белков совпадают у кишечной и сенной палочек.
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|
| Acylphosphatase | ACYP_ECOLI | ACYP_BACSU | 150.0 | 42.9 | 59.7 | 5 | 1 | 78.2 | 84.6 |
| Peptide chain release factor 1 | RF1_ECOLI | RF1_BACSU | 947.0 | 51.0 | 72.5 | 4 | 2 | 96.1 | 97.8 |
| Formyltetrahydrofolate deformylase | PURU_ECOLI | PURU_BACSU | 611.5 | 45.0 | 63.9 | 20 | 5 | 95.4 | 91.0 |
Acylphosphatase у двух бактерий не гомологичны по всей длине (относительно невысокий процент совпадающих аминокислот, много гэпов). Гомологичные участки есть, они заметны в локальном выравнивании (больше процент идентичности и меньше гэпов). Концы последовательностей, плохо выровненные в глобальном выравнивании в локальном просто отсутствуют (поэтому длина локального выравнивания меньше) - скорее всего, в концах нет гомологичности . В концах в глобальном выравнивании там просто много гэпов, а в локальном их нет. В данном случае локальное выравнивание более информативно, так как позволяет обнаружить гомологичные участки.
Formyltetrahydrofolate deformylase у двух бактерий не гомологичны по всей длине, почти такой же процент идентичности, как у Acylphosphatase, но меньше гэпов и в локальном, и в глобальном выравниваниях. Из глобального выравнивания заметно, что у белка сенной палочки больше аминокислот на N-конце - это негомологичный участок, в локальном выравнивании его нет. Также C-концы в локальном выравнивании обрезаны, так как они негомологичны (в глобальном не совпадают). В данном случае локальное выравнивание более информативно, так как позволяет обнаружить гомологичные участки.
Peptide chain release factor 1: локальное и глобальное выравнивания практически не отличаются (их длины и процент идентичности совпадают). Скорее всего, белки гомологичны по всей длине. В данном случае локальное и глобальное выравнивания не отличаются по информативности.
Были выбраны следующие белки с разными мнемониками: Gluconeogenesis factor у сенной палочки и Heme chaperone HemW у кишечной палочки.
| Alignment | Protein Names | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps |
|---|---|---|---|---|---|---|---|
| Global | Gluconeogenesis factor, Heme chaperone HemW | GNGF_BACSU | HEMW_ECOLI | 42.0 | 18.4 | 29.6 | 197 |
| Local | Gluconeogenesis factor, Heme chaperone HemW | GNGF_BACSU | HEMW_ECOLI | 52.0 | 20.7 | 33.6 | 122 |
Последовательности негомологичны: очень низкий процент идентичности и много гэпов. Но у локального выравнивания счет все равно выше (там нет очень протяженных участков с гэпами как в глобальном выравнивании). Локальное выравнивание пытается найти гомологию там, где ее нет; по глобальному же сразу понятно, что белки ничего общего не имеют.
В Swiss-Prot было найдено 11 белков, начинающихся с мнемоники PURU_ (Formyltetrahydrofolate deformylase). Были выбраны следующие белки: PURU_ECOLI, PURU_BACSU, PURU_SYNY3, PURU_HAEIN, PURU_MYCTO, PURU_CORS1, PURU_SHIFL.
Сначала был создан файл в fasta-формате с названиями этих белков, затем запущено выравнивание в командной строке:
muscle -align puru.fasta -output puru_alignment.fasta
Получился файл с множественным выравниванием, который можно открыть с помощью Jalview. Все белки хорошо выровнены, сразу заметны крупные гомологичные участки. Есть более консервативные участки: 117-167, 218-312; и менее консервативный участок находится в начале выравнивания: 2-32.