Учебный сайт студента ФББ МГУ

Киселёв Матвей Олегович

Отчёт о практикуме 9

Выравнивания белковых последовательностей

Глобальное и локальное выравнивания

Список всех идентификаторов E. coli и B. subtilis были в виде текстовых файлов скачаны с помощью программ:

infoseq 'sw:*_ecoli' -only -name -nohead -out ecoli.txt
infoseq 'sw:*_bacsu' -only -name -nohead -out bacsu.txt

Были найдены все мнемоники функций, совпадающие в двух протеомах с помощью скрипта Python 3.10.1, запущенного на сервере Kodomo:

#!/usr/bin/env python

file = open('ecoli.txt', 'r').readlines()
coli = []
acsu = []
for line in file:
    line = line.strip()
    result=line.split('_')
    coli.append(result[0])

file = open('bacsu.txt', 'r').readlines()
for line in file:
    line = line.strip()
    result = line.split('_')
    acsu.append(result[0])
result = set(coli).intersection(set(acsu))
print(result)

Для анализа случайным образом были выбраны мнемоники MAA, SYGA и ZNUA.

Глобальное парное выравнивание проведено с помощью утилиты needle:

needle sw:maa_ecoli sw:maa_bacsu maa.needle -auto
needle sw:syga_ecoli sw:syga_bacsu syga.needle -auto
needle sw:znua_ecoli sw:znua_bacsu znua.needle -auto
Таблица 1. Параметры глобального выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Maltose O-acetyltransferase MAA_ECOLI MAA_BACSU 632 64,3 78,9 3 3
Glycine--tRNA ligase alpha subunit SYGA_ECOLI SYGA_BACSU 972 59,9 71,7 16 4
High-affinity zinc uptake system binding-protein ZNUA_ECOLI ZNUA_BACSU 235 22,6 41,8 27 8

Локальное парное выравнивание осуществлено с помощью программы water:

water sw:maa_ecoli sw:maa_bacsu maa.water -auto
water sw:syga_ecoli sw:syga_bacsu syga.water -auto
water sw:znua_ecoli sw:znua_bacsu znua.water -auto
Таблица 2. Параметры локального выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels % Coverage 1 % Coverage 2
Maltose O-acetyltransferase MAA_ECOLI MAA_BACSU 632 64,7 79,3 2 2 100 99,46
Glycine--tRNA ligase alpha subunit SYGA_ECOLI SYGA_BACSU 976 63,7 75,8 6 2 95,38 95,93
High-affinity zinc uptake system binding-protein ZNUA_ECOLI ZNUA_BACSU 243,5 22,9 44,1 11 6 94,19 93,87

Проведены локальное и глобальное выравнивания двух неродственных белков. Их мнемоники AHPC (Alkyl hydroperoxide reductase C) и XERC (Tyrosine recombinase). Первый взят из протеома E. coli, а второй — от B. subtilis.

Выравнивания сделаны аналогичным образом:

needle sw:ahpc_ecoli sw:xerc_bacsu align.needle -auto
water sw:ahpc_ecoli sw:xerc_bacsu align.water -auto
Таблица 3. Параметры глобального и локального выравнивания пары неродственных белков
ID 1 ID 2 Score % Identity % Similarity Gaps Indels % Coverage 1 % Coverage 2
AHPC_ECOLI XERC_BACSU 11 0,6 1,3 453 2 --- ---
AHPC_ECOLI XERC_BACSU 36 30,8 53,8 0 0 13,90 8,55

Данные выравниваний (см. табл. 3) показывают, что белки действительно негомологичны.

Множественное выравнивание

Выбрана мнемоника SYGA.

Рекомендованное имя белка из E. coli: Glycine--tRNA ligase alpha subunit

В Uniprot-поиске по мнемонике найдено 389 результатов (393 всего, из которых 4 с неправильной мнемоникой), из которых выбраны:

SYGA_LISMC, Listeria monocytogenes серотип 4b (штамм CLIP80459);

SYGA_SHEHH, Shewanella halifaxensis (штамм HAW-EB4);

SYGA_POLNA, Polaromonas naphthalenivorans (штамм CJ2);

SYGA_RICRO, Rickettsia rickettsii (штамм Iowa);

SYGA_LEUCK, Leuconostoc citreum (штамм KM20).

Выравнивание проводилось с помощью программного обеспечения MUSCL.

Был создан файл с расширением .txt, в котором в столбец были выписаны указанные выше «Entry Name»-ы. Затем этот файл был преобразован в FASTA-формат с помощью утилиты:

seqret @syga.txt syga.fasta

Собственно выравнивание было запущено командой:

muscle -in syga.fasta -out syga_alignment.fasta

Полученный на выходе файл был скачан на компьютер для дальнейшей визуализации в Jalview 2.11.2.6.

Jalview-проект выравнивания

В целом, на всём этом выравнивании (и особенно при окраске по проценту идентичности) видны участки сходства, что, безусловно, говорит в пользу подтверждения гомологичности выровненных белков. Эти участки перемежаются с вариабельными регионами Однако на позициях 190-197, а также в самом конце (с 301 аминокислоты) обнаруживаются индели. Вероятно, они не влияют на структуру активного центра фермента, и поэтому закрепились в эволюции.