Практикум 9. Выравнивание последовательностей

Все выравнивания проводились с использованием матрицы BLOSUM62 и стандартных штрафов за открытие гэпа (10) и его продление (0.5). Команда для запуска алгоритма выравнивания:
[needle | water] -asequence file1 -bsequence file2 -gapopen 10 -gapextend 0.5 -datafule EBLOSUM62 -outfile result_file

Таблица рецензированных белков были скачаны со страниц поисковой выдачи. Поисковые запросы для белков бактерий:
Escherichia coli (strain K12): (organism_id:83333) AND (reviewed:true)
Bacillus subtilis (strain 168): (organism_id:224308) AND (reviewed:true)

2. Глобальное парное выравнивание гомологичных белков

Таблица 1. Глобальное парное выравнивание трех пар белков
Protein NameID 1ID 2Score% Ideintity% SimilarutyGapsIndels
Phosphocarrier protein HPr PTHP_ECOLIPTHP_BACSU145.033.7%57.3%52
Small ribosomal subunit protein uS12 RS12_ECOLIRS12_BACSU463.067.4%73.9%142
2-iminobutanoate/2-iminopropanoate deaminase RIDA_ECOLIRIDA_BACSU316.049.2%64.1%31

3. Локальнное парное выравнивание гомологичных белков

Таблица 2. Локальное парное выравнивание трех пар белков
Protein NameID 1ID 2Score% Ideintity% Similaruty GapsIndelsCoverage 1Coverage 2
Phosphocarrier protein HPr PTHP_ECOLIPTHP_BACSU151.035.8%60.5% 0095.29%92.04%
Small ribosomal subunit protein uS12 RS12_ECOLIRS12_BACSU463.067.9%74.5% 131100.00%99.27%
2-iminobutanoate/2-iminopropanoate deaminase RIDA_ECOLIRIDA_BACSU317.050.0%64.3% 3198.44%98.40%

4.Выводы

1. Phosphocarrier protein HPr

Белки не являются гомологичными по всей длине: глобальное выравнивание показывает 5 гэпов и 2 инделя, что указывает на несовпадение в некоторых участках. Кроме того, процент идентичности низкий (33.7%). Однако отдельные консервативные участки присутствуют: локальное выравнивание демонстрирует отсутствие пробелов и более высокие показатели по сравнению с глобальным. По информативности также выигрывает локальное выравнивание: оно выделило наиболее гомологичные домены, игнорируя дивергентные регионы. Превосходство в Score и отсутствие гэпов подтверждают, что локальный метод точнее отражает эволюционно значимые совпадения.

2. Small ribosomal subunit protein uS12

Оба метода показывают высокие значения оценки (~463), идентичности (~67-68%) и сходства (~74%), что говорит о гомологичности белков по всей их длине. Крупный индель в начале выравнивания может свидетельствовать о делеции нефункционального участка у белка кишечной палочки. Локальное выравнивание лишь незначительно улучшило параметры, что указывает на высокую консервативность на протяжении всей длины белковы. В отличие от сравнения прошлых выравниваний, в данном случае оба алгоритма оказались одинаково информативными/

3. 2-iminobutanoate/2-iminopropanoate deaminase

Белки можно считать гомологичными по всей длине: выравнивания имеют близкие и достаточно высокие значения сходства (около 50%). Гомологичные участки присутствуют, и локальное выравнивание выявило более точное совпадение в ключевых областях (Score=317 vs 316), пусть даже и с минимальными различиями. Оба метода оказались достаточно информативными, с небольшой разциней в пользу локального выравнивания. Оно сохранило gaps и инделы, но увеличило Score и Identity. Возможно, глобальный метод "пожертвовал" парой совпадений для сохранения общей структуры, тогда как локальный оптимизировал выравнивание в критических участках.

5. Выравнивание негомологичных последовательностей

Были выполнены глобальное и локальное парное выравнивание негомологичных белков PTHP_ECOLI и RS12_BACSU.

Таблица 3. Глобальное и локальное выравнивания последовательностей негомологичных белков
AlgorithmID 1ID 2Score% Ideintity% Similaruty GapsIndelsCoverage 1Coverage 2
needle PTHP_ECOLIRS12_BACSU26.014.1%22.4% 897
water PTHP_ECOLIRS12_BACSU34.029.0%43.5% 10478.82%44.20%

89 гэпов... Куда столько...

Проценты идентичности и сходства значительно выше, а количества гэпов и инделей значительно ниже. Однако нужно помнить, что так как белки имеют совершенно разные происхождения и функции, оба выравнивания являются одинаково бессмысленными.

6. Множественное выравнивание

6.1. Выбор белков:

Выбранный белок: RS12_* – белок малой субъединицы рибосомы. С помощью запроса (reviewed:true) AND (id:RS12_*) находятся 882 результата, среди которых белки как прокариот, так и эукариот. Поскольку рибосомы этих групп имеют принципиальные отличия, я буду рассматривать исключительно белки прокариотов. Всего таких белков 796, получить их список можно по запросу (reviewed:true) AND (id:RS12_*) AND (taxonomy_id:2). Для выравнивания я выбрал следующие 5 белков (помимо белков кишечной и сенной палочек): RS12_THETH, RS12_MYCTU, RS12_RHOPA, RS12_MAGMM и RS12_CHRFK.

6.2. Выравнивание:

Выравнивание было выполнено с использованием установленной на kodomo программы mafft, все файлы сохранялись в папке ~/term2/pr9/alignment. Я создал файл RS12.txt, представляющий из себя список USA для 7 рассматриваемых белков, затем с помощью команды
seqret @RS12.txt RS12.fasta
получил fasta-файл с нужными последовательностями. Далее ввел команду mafft и в консоли указал имя входного и выходного файлов, формат вывода (4. Fasta format / Input orded) и стратегию (FFT-NS-2 (default)). Полученный файл скачал на свой компьютер.

6.3 Просмотр выравнивания:

Я открыл файл в Jalview и установил набор цветов Clustal и порог консервативности (By conservation) 20. Значительное количество позиций совпадают, а подавляющее большинство схожие. У 6 из 7 выравниваний был индель с 26 по 37 аминокислоту (кроме RS12_BACSU). Можно предположить, что его отсутствие у белка сенной палочки связано с инсерцией в кодирующую ее последовательность ДНК, причем длина вставленной нуклеотидной последовательности кратна трём. У последовательностей разные (негомологичные) окончания, особенно выделяется RS12_THETH за счет "дополнительных" 8 аминокислот.
Файл проекта Jalview расположен здесь.