Практикум 9

Резюме: В ходе работы над данным практикумом были освоены базовые навыки построения и анализа выравниваний белковых последовательностей


Глобальное парное выравнивание гомологичных белков
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score Identity Similarity Gaps Indels
Histidinol dehydrogenase HISX_ECOLI HUSX_BACSU 740.5 38.3% 56.3% 17 5
N5-carboxyaminoimidazole ribonucleotide mutase PURE_ECOLI PURE_BACSU 476.0 57.6% 72.2% 7 2
Uridine kinase URK_ECOLI URK_BACSU 572.5 51.4% 66.5% 12 3

Списки идентификаторов были получены с помощью команд:
infoseq 'sw:*_ecoli' -only -name -nohead -out ecoli.txt и infoseq 'sw:*_bacsu' -only -name -nohead -out bacsu.txt
Далее был получен список совпадающих мнемоник (uniq -d позволяет напечатать только повторяющиеся строки (одну на группу дубликатов):
cut -f 1 -d '_' ecoli.txt bacsu.txt | sort | uniq -d > common_mnems.txt

Локальное парное выравнивание гомологичных белков
Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score Identity Similarity Gaps Indels Coverage1 Coverage2
Histidinol dehydrogenase HISX_ECOLI HISX_BACSU 741.5 39.8% 58.1% 8 3 94.5% 96.5%
N5-carboxyaminoimidazole ribonucleotide mutase PURE_ECOLI PURE_BACSU 488.0 62.6% 78.7% 0 0 91.7% 95.7%
Uridine kinase URK_ECOLI URK_BACSU 576.5 54.6% 70.7% 4 1 96.2% 95.3%
Выравнивание неродственных белков

Мной рандомно были выбраны идентификаторы NANY_ECOLI и FOLD_BACSU. Для этих двух белков были проведены глобальное и локальное выравнивания. Результаты представлены ниже.

Таблица 3. Характеристики глобального парного выравнивания неродственных белков
Protein Name 1 ID 1 Protein Name 2 ID 2 Score Identity Similarity Gaps Indels
2,7-anhydro-N-acetylneuraminate hydratase NANY_ECOLI Bifunctional protein FolD FOLD_BACSU 32.0 8.3% 15.9% 353 16
Таблица 4. Характеристики локального парного выравнивания неродственных белков
Protein Name 1 ID 1 Protein Name 2 ID 2 Score Identity Similarity Gaps Indels Coverage1 Coverage2
2,7-anhydro-N-acetylneuraminate hydratase NANY_ECOLI Bifunctional protein FolD FOLD_BACSU 51.5 20.8% 39.9% 45 10 42.7% 46.6%

Score, ожидаемо, маленький у обоих выравниваний, что говорит о неродственнсоти белков. Тем не менее, локальное выравнивание позволяет выявить некоторые похожие участки в последовательностях белков. Оба белка - это оксидоредуктазы, NANY осуществляет дегидратацию сиаловых кислот, а FOLD участвует в обмене фолиевой кислоты. Оба фермента в качестве кофактора используют никотинамидные нуклеотиды (NANY - NAD, а FOLD - NADP), поэтому похожие участки могут быть сайтами связывания этих кофакторов.

Множественное выравнивание белков и импорт в Jalview

Для построения множественного выравнивания я выбрал мнемонику PURE (рекомендованное полное имя белка: N5-carboxyaminoimidazole ribonucleotide mutase). В Swiss-Prot нашлось 28 подходящих белков, я выбрал белки с идентификаторами PURE_HAEIN (Haemophilus influenzae), PURE_MYCTU (Mycobacterium tuberculosis), PURE_VIBVY (Vibrio vulnificus), PURE_ARCFU (Archaeoglobus fulgidus) и PURE_CORAM (Corynebacterium ammoniagenes).
Выравнивание было построено с помощью программы muscle на kodomo. Последовательность команд представлена ниже (pure.txt - файл, строки которого - sw:pure_org, где org - мнемоника организма).

seqret @pure.txt pure.fasta
muscle -in pure.fasta -out pure_alignment.fasta
Полученный файл был импортирован в Jalview, колонки раскрашены по проценту идентичности (ссылка на проект ниже). С уверенностью можно сказать, что 6 из 7 последовательностей гомологичны друг другу, четко можно выделить консервативные участки: 33-39, 60-67 - соответствуют карману связывания, а также 88-97, 118-132. Но последовательность PURE_ARCFU слабо идентична другим последовательностям. В отличие от остальных белков с полным именем N5-carboxyaminoimidazole ribonucleotide mutase, PURE_ARCFU - это идентификатор белка с полным именем Phosphoribosylaminoimidazole carboxylase, соответственно эти белки катализируют разные реакции (но с очень похожими субстратами), поэтому неудивительно, что последовательность PURE_ARCFU сильно отличается от других. Из этой статьи я понял, что для E.coli показано, что белок purE - это одна из двух субъединиц Phosphoribosylaminoimidazole carboxylase. Скорее всего, для других бактерий (кроме Archaeoglobus fulgidus) это также. Возможно, у Archaeoglobus fulgidus этот белок является мономерным и кодируется одним геном, но это только моя догадка. В любом случае, последовательность PURE_ARCFU все таки имеет сайты идентичности с другими последовательностями, а белки осуществляют очень похожие реакции, поэтому, скорее всего, они связаны по эволюционному происхождению.