Выравнивание последовательностей.

1. Глобальное парное выравнивание гомологичных белков.

Список идентификаторов был получен в командной строке с помощью командной строки. Для штамма K12 кишечной палочки:

 infoseq ‘sw:*_ECOLI’ -only -name -nohead -out coli.txt 

Для штамма 168 сенной палочки:

 
infoseq ‘sw:*_BACSU’ -only -name -nohead -out bacsu.txt.

Пары белков из двух списков, чьи идентификаторы имеют одинаковую мнемонику функции, также были получены с помощью командной строки. Сначала были созданы файлы ecoli_u.txt и bacsu_u.txt, в которых каждая мнемоника встречается один раз. Например, команда для сенной палочки:

cut -d '_' -f1 bacsu.txt | sort -u > bacsu_u.txt

Затем были отобраны идентификаторы встречающиеся и у кишечной палочки, и у сенной:

ccut -f 1 -d '_' ecoli_u.txt bacsu_u.txt | sort | uniq -d > common_mnems.txt

Были выбраны следующие идентификаторы: ACYP (Acylphosphatase), RF1 (Peptide chain release factor 1), PURU (Formyltetrahydrofolate deformylase).

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков .
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Acylphosphatase ACYP_ECOLI ACYP_BACSU 141.5 32.4 45.4 33 3
Peptide chain release factor 1 RF1_ECOLI RF1_BACSU 944.0 49.2 70.6 12 5
Formyltetrahydrofolate deformylase PURU_ECOLI PURU_BACSU 601.5 41.4 59.3 34 7

Названия приведенных белков совпадают у кишечной и сенной палочек.

2. Локальное парное выравнивание гомологичных белков.

Таблица 2. Характеристики локального парного выравнивания трёх пар белков .
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Acylphosphatase ACYP_ECOLI ACYP_BACSU 150.0 42.9 59.7 5 1 78.2 84.6
Peptide chain release factor 1 RF1_ECOLI RF1_BACSU 947.0 51.0 72.5 4 2 96.1 97.8
Formyltetrahydrofolate deformylase PURU_ECOLI PURU_BACSU 611.5 45.0 63.9 20 5 95.4 91.0

3. Комментарии к выравниваниям.

Acylphosphatase у двух бактерий не гомологичны по всей длине (относительно невысокий процент совпадающих аминокислот, много гэпов). Гомологичные участки есть, они заметны в локальном выравнивании (больше процент идентичности и меньше гэпов). Концы последовательностей, плохо выровненные в глобальном выравнивании в локальном просто отсутствуют (поэтому длина локального выравнивания меньше) - скорее всего, в концах нет гомологичности . В концах в глобальном выравнивании там просто много гэпов, а в локальном их нет. В данном случае локальное выравнивание более информативно, так как позволяет обнаружить гомологичные участки.

Formyltetrahydrofolate deformylase у двух бактерий не гомологичны по всей длине, почти такой же процент идентичности, как у Acylphosphatase, но меньше гэпов и в локальном, и в глобальном выравниваниях. Из глобального выравнивания заметно, что у белка сенной палочки больше аминокислот на N-конце - это негомологичный участок, в локальном выравнивании его нет. Также C-концы в локальном выравнивании обрезаны, так как они негомологичны (в глобальном не совпадают). В данном случае локальное выравнивание более информативно, так как позволяет обнаружить гомологичные участки.

Peptide chain release factor 1: локальное и глобальное выравнивания практически не отличаются (их длины и процент идентичности совпадают). Скорее всего, белки гомологичны по всей длине. В данном случае локальное и глобальное выравнивания не отличаются по информативности.

4. Результат применения программ выравнивания к неродственным белкам.

Были выбраны следующие белки с разными мнемониками: Gluconeogenesis factor у сенной палочки и Heme chaperone HemW у кишечной палочки.

Таблица 3. Характеристики глобального и локального парных выравниваний неродственной пары белков.
Alignment Protein Names ID 1 ID 2 Score % Identity % Similarity Gaps
Global Gluconeogenesis factor, Heme chaperone HemW GNGF_BACSU HEMW_ECOLI 42.0 18.4 29.6 197
Local Gluconeogenesis factor, Heme chaperone HemW GNGF_BACSU HEMW_ECOLI 52.0 20.7 33.6 122

Последовательности негомологичны: очень низкий процент идентичности и много гэпов. Но у локального выравнивания счет все равно выше (там нет очень протяженных участков с гэпами как в глобальном выравнивании). Локальное выравнивание пытается найти гомологию там, где ее нет; по глобальному же сразу понятно, что белки ничего общего не имеют.

5. Множественное выравнивание белков и импорт в Jalview.

В Swiss-Prot было найдено 11 белков, начинающихся с мнемоники PURU_ (Formyltetrahydrofolate deformylase). Были выбраны следующие белки: PURU_ECOLI, PURU_BACSU, PURU_SYNY3, PURU_HAEIN, PURU_MYCTO, PURU_CORS1, PURU_SHIFL.

Сначала был создан файл в fasta-формате с названиями этих белков, затем запущено выравнивание в командной строке:

muscle -align puru.fasta -output puru_alignment.fasta

Получился файл с множественным выравниванием, который можно открыть с помощью Jalview. Все белки хорошо выровнены, сразу заметны крупные гомологичные участки. Есть более консервативные участки: 117-167, 218-312; и менее консервативный участок находится в начале выравнивания: 2-32.