Практикум 9. Выравнивание последовательностей
Глобальное парное выравнивание гомологичных белков
Я скачала два списка идентификаторов всех аннотированных записей штамма К12 кишечной палочки и штамма 168 сенной палочки. Для этого я использовала следующий запрос (для кишечной палочки например):
infoseq 'sw:*_ECOLI' -only -name -nohead -out ecoli.txt
Далее я получила список мнемоник, которые есть у обоих видов с помощью следующего запроса:
cut -f 1 -d '_' ecoli.txt bacsu.txt | sort | uniq -d > common_mnems.txt
Были выбраны три мнемоники: GLK, MOBA, QUEE. Для них были определены полные названия белков запросами, аналогичными этому:
entret sw:glk_ecoli -filter | grep '^DE'
Названия совпали у сенной и кишечной палочки, кроме MOBA. В этом случае у кишечной палочки полное название - Molybdenum cofactor guanylyltransferase, а у сенной - Probable molybdenum cofactor guanylyltransferase. Попарно я выровняла эти последовательности с помощью алгоритма needle и результаты внесла в таблицу 1.
needle sw:glk_ecoli sw:glk_bacsu eno.needle -auto
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| Glucokinase | GLK_ECOLI | GLK_BACSU | 89.0 | 22.1% | 32.8% | 164 | 26 |
| Molybdenum cofactor guanylyltransferase | MOBA_ECOLI | MOBA_BACSU | 150.5 | 24.9% | 43.9% | 49 | 12 |
| 7-carboxy-7-deazaguanine synthase | QUEE_ECOLI | QUEE_BACSU | 184.0 | 19.1% | 32.2% | 130 | 15 |
Локальное парное выравнивание гомологичных белков
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|
| Glucokinase | GLK_ECOLI | GLK_BACSU | 98.5 | 22.0% | 32.5% | 159 | 22 | 79.4% | 78.6% |
| Molybdenum cofactor guanylyltransferase | MOBA_ECOLI | MOBA_BACSU | 156.5 | 26.8% | 47.3% | 39 | 10 | 89.8% | 91.2% |
| 7-carboxy-7-deazaguanine synthase | QUEE_ECOLI | QUEE_BACSU | 191.5 | 25.7% | 43.2% | 56 | 11 | 93.7% | 79.1% |
Сравнение выравниваний
Несмотря на то, что мы брали последовательности предположительно гомологичных белков, видим, что процент идентичности не так уж и высок. У Glucokinase локальное выравниевание практически не отличается от глобального, процент покрытия обеих последовательностей примерно равен и довольно высок, последовательности могут быть гомологичными.
У Molybdenum cofactor guanylyltransferase процент сходства обоих выравниваний выше, как и процент покрытия. Глобальное и локальное выравнивания тоже отличаются несильно, и этот белок с высокой вероятностью может быть гомологичным у сенной и кишечной палочек.
А вот у 7-carboxy-7-deazaguanine synthase ситуация отличается. Глобальное выравнивание говорит о том, что эти последовательности согут быть не гомологичны, при этом процент сходства в локальном выравнивании выше, чем в глобальном, а процент покрытия последовательности сенной палочки сильно отличается от кишечной. На основании этих фактов можно сделать вывод, что глобальное и локальное выравнивания не идентичны, а последовательности скорее всего не гомологичны.
Сравнение выравниваний неродственных белков
В качестве разных мнемоник были случайно выбраны следующие: CSE1_ECOLI (CRISPR system Cascade subunit CasA) для кишечной палочки и PHRA_BACSU (Phosphatase RapA inhibitor) для сенной.
| Alignment | Protein Names | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps |
|---|---|---|---|---|---|---|---|
| Глобальное | CRISPR system Cascade subunit CasA, Phosphatase RapA inhibitor | CSE1_ECOLI | PHRA_BACSU | 15.0 | 2.2% | 3.0% | 468 |
| Локальное | CRISPR system Cascade subunit CasA, Phosphatase RapA inhibitor | CSE1_ECOLI | PHRA_BACSU | 21.0 | 66.7% | 83.3% | 0 |
Получились довольно интересные результаты. Случайность выбора дает о себе знать и в глобальном выравнивании процент сходства крайне низок, гэпов очень много, то есть можно смело говорить, что белки негомологичны. Однако локальное выравнивание длиной всего 6 а. о. имеет очень высокие показатели идентичности и схожести (больше, чем у белков с одинаковой мнемоникой в прошлом пункте) и совсем не содержит гэпы. При первом взгляде на идентичность белков по локальному выравниванию может показаться, что гомология присутствует, хотя на самом деле ее нет.
Множественное выравнивание белков и импорт в Jalview
Я выбрала мнемонику GLK (Glucokinase) и с помощью следующей команды получила список из 146 белков. Из них были взяты эти: GLK_AERPE, GLK_YERPP, GLK_CITK8, GLK_SALG2, GLK_ESCF3.
infoseq 'sw:glk_*' -only -name -nohead -out glk.txt
Для выравнивания, сначала был создан файл glk.txt с названиями белков в формате "sw:glk_ecoli". После я получила файл glk.fasta командой
seqret @glk.txt glk.fasta
Далее было запущено множественное выравнивание следующей командой:
muscle -align glk.fasta -output glk_alignment.fasta
Полученное выравнивание я импортировала в Jalview и покрасила по проценту идентичности (Percentage Identity). Теперь хорошо видно, какие белки наиболее гомологичны. По окрашиванию заметно, что GLK_YERPP, GLK_SALG2, GLK_CITK8, GLK_ECOLI и GLK_ESCF3 очень похожи и практически не имеют "белых" участков, когда GLK_AERPE и GLK_BACSU содержат меньше гомологичных участков. Ради интереса я провела выравнивание GLK_ECOLI и GLK_CITK8 с помощью программы needle (needle sw:glk_ecoli sw:glk_citk8 glk2.needle -auto) и получила данные, которые записала в таблицу 4, для сравнения с выравниванием GLK_ECOLI и GLK_BACSU. Мы видим, что первая пара белков гораздо более гомологична, чем вторая, даже несмотря на одинаковую длину последовательностей.
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| Glucokinase | GLK_ECOLI | GLK_CITK8 | 1551.0 | 91.9% | 95.0% | 0 | 0 |
| Glucokinase | GLK_ECOLI | GLK_BACSU | 89.0 | 22.1% | 32.8% | 164 | 26 |