Практикум 9. Выравнивание последовательностей

Глобальное парное выравнивание гомологичных белков

Я скачала два списка идентификаторов всех аннотированных записей штамма К12 кишечной палочки и штамма 168 сенной палочки. Для этого я использовала следующий запрос (для кишечной палочки например):

infoseq 'sw:*_ECOLI' -only -name -nohead -out ecoli.txt

Далее я получила список мнемоник, которые есть у обоих видов с помощью следующего запроса:

cut -f 1 -d '_' ecoli.txt bacsu.txt | sort | uniq -d > common_mnems.txt

Были выбраны три мнемоники: GLK, MOBA, QUEE. Для них были определены полные названия белков запросами, аналогичными этому:

entret sw:glk_ecoli -filter | grep '^DE'

Названия совпали у сенной и кишечной палочки, кроме MOBA. В этом случае у кишечной палочки полное название - Molybdenum cofactor guanylyltransferase, а у сенной - Probable molybdenum cofactor guanylyltransferase. Попарно я выровняла эти последовательности с помощью алгоритма needle и результаты внесла в таблицу 1.

needle sw:glk_ecoli sw:glk_bacsu eno.needle -auto

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Glucokinase GLK_ECOLI GLK_BACSU 89.0 22.1% 32.8% 164 26
Molybdenum cofactor guanylyltransferase MOBA_ECOLI MOBA_BACSU 150.5 24.9% 43.9% 49 12
7-carboxy-7-deazaguanine synthase QUEE_ECOLI QUEE_BACSU 184.0 19.1% 32.2% 130 15

Локальное парное выравнивание гомологичных белков

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Glucokinase GLK_ECOLI GLK_BACSU 98.5 22.0% 32.5% 159 22 79.4% 78.6%
Molybdenum cofactor guanylyltransferase MOBA_ECOLI MOBA_BACSU 156.5 26.8% 47.3% 39 10 89.8% 91.2%
7-carboxy-7-deazaguanine synthase QUEE_ECOLI QUEE_BACSU 191.5 25.7% 43.2% 56 11 93.7% 79.1%

Сравнение выравниваний

Несмотря на то, что мы брали последовательности предположительно гомологичных белков, видим, что процент идентичности не так уж и высок. У Glucokinase локальное выравниевание практически не отличается от глобального, процент покрытия обеих последовательностей примерно равен и довольно высок, последовательности могут быть гомологичными.

У Molybdenum cofactor guanylyltransferase процент сходства обоих выравниваний выше, как и процент покрытия. Глобальное и локальное выравнивания тоже отличаются несильно, и этот белок с высокой вероятностью может быть гомологичным у сенной и кишечной палочек.

А вот у 7-carboxy-7-deazaguanine synthase ситуация отличается. Глобальное выравнивание говорит о том, что эти последовательности согут быть не гомологичны, при этом процент сходства в локальном выравнивании выше, чем в глобальном, а процент покрытия последовательности сенной палочки сильно отличается от кишечной. На основании этих фактов можно сделать вывод, что глобальное и локальное выравнивания не идентичны, а последовательности скорее всего не гомологичны.

Сравнение выравниваний неродственных белков

В качестве разных мнемоник были случайно выбраны следующие: CSE1_ECOLI (CRISPR system Cascade subunit CasA) для кишечной палочки и PHRA_BACSU (Phosphatase RapA inhibitor) для сенной.

Таблица 3. Сравнение выравниваний неродственных белков
Alignment Protein Names ID 1 ID 2 Score % Identity % Similarity Gaps
Глобальное CRISPR system Cascade subunit CasA, Phosphatase RapA inhibitor CSE1_ECOLI PHRA_BACSU 15.0 2.2% 3.0% 468
Локальное CRISPR system Cascade subunit CasA, Phosphatase RapA inhibitor CSE1_ECOLI PHRA_BACSU 21.0 66.7% 83.3% 0

Получились довольно интересные результаты. Случайность выбора дает о себе знать и в глобальном выравнивании процент сходства крайне низок, гэпов очень много, то есть можно смело говорить, что белки негомологичны. Однако локальное выравнивание длиной всего 6 а. о. имеет очень высокие показатели идентичности и схожести (больше, чем у белков с одинаковой мнемоникой в прошлом пункте) и совсем не содержит гэпы. При первом взгляде на идентичность белков по локальному выравниванию может показаться, что гомология присутствует, хотя на самом деле ее нет.

Множественное выравнивание белков и импорт в Jalview

Я выбрала мнемонику GLK (Glucokinase) и с помощью следующей команды получила список из 146 белков. Из них были взяты эти: GLK_AERPE, GLK_YERPP, GLK_CITK8, GLK_SALG2, GLK_ESCF3.

infoseq 'sw:glk_*' -only -name -nohead -out glk.txt

Для выравнивания, сначала был создан файл glk.txt с названиями белков в формате "sw:glk_ecoli". После я получила файл glk.fasta командой

seqret @glk.txt glk.fasta

Далее было запущено множественное выравнивание следующей командой:

muscle -align glk.fasta -output glk_alignment.fasta

Полученное выравнивание я импортировала в Jalview и покрасила по проценту идентичности (Percentage Identity). Теперь хорошо видно, какие белки наиболее гомологичны. По окрашиванию заметно, что GLK_YERPP, GLK_SALG2, GLK_CITK8, GLK_ECOLI и GLK_ESCF3 очень похожи и практически не имеют "белых" участков, когда GLK_AERPE и GLK_BACSU содержат меньше гомологичных участков. Ради интереса я провела выравнивание GLK_ECOLI и GLK_CITK8 с помощью программы needle (needle sw:glk_ecoli sw:glk_citk8 glk2.needle -auto) и получила данные, которые записала в таблицу 4, для сравнения с выравниванием GLK_ECOLI и GLK_BACSU. Мы видим, что первая пара белков гораздо более гомологична, чем вторая, даже несмотря на одинаковую длину последовательностей.

Таблица 4. Характеристики глобального парного выравнивания двух пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Glucokinase GLK_ECOLI GLK_CITK8 1551.0 91.9% 95.0% 0 0
Glucokinase GLK_ECOLI GLK_BACSU 89.0 22.1% 32.8% 164 26