Учебный сайт
Владимира Ноздрина

В болгарском алфавите очень много букв,
И все они похожи на меня.
Кобыла и Трупоглазые Жабы, "Ратко Младич"

Выравнивание последовательностей белка

 В данном практикуме исследуются белки с одинаковой мнемоникой функции из разных организмов. Как были найдены белки? Для начала из UniProt Proteomes были скачаны оба протеома в формате excel-таблицы. Эти таблицы были импортированы в разные листы одной Google-таблицы. Затем с помощью инструмента замены из столбцов с идентификатором белка были удалены мнемоники организма, и с помощью ВПР был произведён поиск по совпадающим мнемоникам. Итак, получили электронную таблицу, где на листе ecoli в столбце J перечислены все совпадающие мнемоники функций.

Глобальное выравнивание

 Для парных выравниваний были выбраны белки FLGB, RHO и LEXA. Необходимо было выровнять последовательности этих белков из разных бактерий: Escherichia coli (strain K12) и Bacillus subtilis (strain 168). Названия белков были получены из их записей в UniProt, они совпадают для всех белков. Далее выравнивания были сделаны с помощью программы needle следующими командами:
$ needle sw:flgb_ecoli sw:flgb_bacsu flgb.needle -auto
$ needle sw:rho_ecoli sw:rho_bacsu rho.needle -auto
$ needle sw:lexa_ecoli sw:lexa_bacsu lexa.needle -auto
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Flagellar basal body rod protein FlgB FLGB_ECOLI FLGB_BACSU 140.5 24.8% 41.2% 39 4
Transcription termination factor Rho RHO_ECOLI RHO_BACSU 1220.0 54.6% 73.3% 22 6
LexA repressor LEXA_ECOLI LEXA_BACSU 296.5 32.7% 51.2% 15 6

Локальное выравнивание

 Локальные выравнивания были получены аналогично, только была использована программа water:
$ water sw:flgb_ecoli sw:flgb_bacsu flgb.water -auto
$ water sw:rho_ecoli sw:rho_bacsu rho.water -auto
$ water sw:lexa_ecoli sw:lexa_bacsu lexa.water -auto
Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Flagellar basal body rod protein FlgB FLGB_ECOLI FLGB_BACSU 142.5 27.1% 42.9% 38 2 90.60% 90.70%
Transcription termination factor Rho RHO_ECOLI RHO_BACSU 1220.0 56.6% 75.9% 8 4 99.76 96.49%
LexA repressor LEXA_ECOLI LEXA_BACSU 300.5 33.5% 52.4% 13 6 97.52% 98.54%
 Итак, результаты выравниваний представлены в Таблицах 1, 2. Какие выводы можно сделать? Белки LexA и Rho из этих бактерий практически точно являются гомологичными, поскольку процент идентичных и похожих аминокислот довольно высок, а покрытие локального выравнивания почти полное.
 С FlgB всё не так однозначно: идентичность и схожесть меньше, покрытие локального выравнивания около 90%. Тем не менее, идентичность локального выравнивания неплохая, и инделей в нём всего 2. Так что скорее всего белки гомологичны, и низкая идентичность свидетельствует о том, что выполняемая этим белком функция не такая важная, как у других двух белков.

Выравнивание неродственных белков

 Для получения выравнивания из неродственных белков были взяты следующие белки:
PROTEIN 1: GABD_ECOLI, Succinate-semialdehyde dehydrogenase [NADP(+)] GabD
PROTEIN 2: GARD_BACSU, Probable galactarate dehydratase (L-threo-forming)
Таблица 3. Характеристики глобального и локального выравнивания этих белков
Глобальное Локальное
Score 82.0 91.0
Identity 17.2% 21.3%
Similarity 27.1% 33.4%
Gaps 290 166
Indels 29 20
Coverage 1 80.30%
Coverage 2 92.35%
ссылки на выравнивания: needle water
 В Таблице 3 указаны характеристики обоих выравниваний. Видно, что вес обоих выравниваний не очень большой, учитывая получившуюся длину выравнивания. Identity и Similarity глобального выравнивания тоже маленькие, что говорит о маленькой вероятности гомологии белков. У локального выравнивания эти параметры нe сильно выше. К тому же, в обоих выравниваниях получилось очень много инделей, что является очень маловероятным, если считать, что у белков общее происхождение. Функции, выполняемые этими белками, тоже разные. Таким образом, полученные данные не позволяют судить о гомологии этих белков.

Множественное выравнивание

 Для множественного выравнивания был выбран Ро-фактор терминации транскрипции. Поиском по UniProt было найдено 52 других белка с такой же мнемоникой функции. Помимо белков из кишечной и сенной палочек были взяты следующие белки: RHO_MYCTU, RHO_SHIFL, RHO_SALTI.
 Для начала, был создан файл rho.txt следующего содержания:
sw:rho_ecoli
sw:rho_bacsu
sw:rho_myctu
sw:rho_shifl
sw:rho_salti
 Далее были получены последовательности этих белков. Была использована следующая команда:
$ seqret @rho.txt rho.fasta
 Получив последовательности, можно приступить к выравниванию. Была использована утилита muscle, а именно команда следующего содержания:
$ muscle -in rho.fasta -out alignment_rho.fasta
 Полученный файл alignment_rho.fasta был скачан с сервера и импортирован в Jalview. Далее выравнивание было раскрашено по проценту идентичности. Таким образом было получено изображение ниже. Проект Jalview можно скачать здесь.
alignment
 Видно, что белок из Mycobacterium tuberculosis имеет гораздо большую длину, чем остальные белки. Тем не менее, в местах, в которых этот белок перекрывается с остальными, наблюдается очень большое количество консервативных участков. Это означает, что все пять белков скорее всего гомологичны. Кроме того, участков, идентичных между RHO_ECOLI, RHO_SHIFL, RHO_SALTI, настолько много, что существует только одна позиция, где остатки от этих белков окрашены в разный цвет, и это абсолютно точно гарантирует гомологию этих трёх белков.