Практикум 9: Глобальное и локальное выравнивание белков

1. Глобальное парное выравнивание гомологичных белков

Из Uniprot были скачаны два списка идентификаторов: всех аннотированных записей, чьи ID кончаются на _ECOLI и на _BACSU. Далее с помощью команд Bash был составлен список подходящих (не начинающихся на Y и не являющихся ENO) совпадающих мнемоник:

cut -d '_' -f 1 ecoli.txt | sort | uniq > ecoli_mnem.txt
cut -d '_' -f 1 bacsu.txt | sort | uniq > bacsu_mnem.txt
comm -12 ecoli_mnem.txt bacsu_mnem.txt > common_mnems.txt
grep -v '^Y' common_mnems.txt | grep -v '^ENO$' > good_mnems.txt

Для проведения выравниваний были выбраны белковые пары HOLA_ECOLI и HOLA_BACSU, MAA_ECOLI и MAA_BACSU, CHER_ECOLI и CHER_BACSU. Последовательности каждой пары были выровнены программой needle при параметрах по умолчанию:

needle sw:hola_ecoli sw:hola_bacsu hola_global.needle -auto
needle sw:maa_ecoli sw:maa_bacsu maa_global.needle -auto
needle sw:cher_ecoli sw:cher_bacsu cher_global.needle -auto

Результаты выравнивания представлены в таблице 1.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков.
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
DNA pol. III subunit delta HOLA_ECOLI HOLA_BACSU 73 18.2 33.8 110 19
Maltose O-acetyltransferase* MAA_ECOLI MAA_BACSU 632 64.3 78.9 3 3
Chemotaxis protein methyltransferase CHER_ECOLI CHER_BACSU 291.5 26.5 41.2 70 11

Индели были подсчитаны с помощью предварительно написанного скрипта на Python:

python indels.py <мнемоника>_global.needle

Полные имена белков были определены с помощью конвеера Bash:

entret sw:<ID белка> -filter | grep '^DE' | grep 'RecName: Full='

*Рекомендованные полные имена для второго белка различаются в двух записях Swiss-Prot: в таблице приведено название для MAA_ECOLI. Рекомендованное полное имя для MAA_BACSU: Probable maltose O-acetyltransferase

2. Локальное парное выравнивание гомологичных белков

Подобранные ранее 3 пары белков были выровнены локально с помощью программы water на kodomo c параметрами по умолчанию:

water sw:hola_ecoli sw:hola_bacsu hola_local.water -auto
water sw:maa_ecoli sw:maa_bacsu maa_local.water -auto
water sw:cher_ecoli sw:cher_bacsu cher_local.water -auto

Результаты выравнивания представлены в таблице 2.

Таблица 2. Характеристики локального парного выравнивания трёх пар белков.
Protein Name ID 1 / ID 2 Score % ID % Sim. Gaps Indels % Cov.1 % Cov.2
DNA pol. III subunit delta HOLA_ECOLI / HOLA_BACSU 92 19.5 37.5 66 14 87.8 74.6
Maltose O-acetyltransferase* MAA_ECOLI / MAA_BACSU 632 64.7 79.3 2 2 100.0 99.5
Chemotaxis protein methyltransferase CHER_ECOLI / CHER_BACSU 306 31.9 48.8 30 8 82.5 89.8

Для каждого белка количество инделей было рассчитано с использованием описанного выше скрипта. Процент покрытия последовательности локальным выравниванием вычислялся по формуле: (длина выровненного участка / полная длина последовательности) × 100%. Длина участка, попавшего в выравнивание, определялась по координатам начала и конца, указанным в файлах с результатами.

3. Комментарии к выравниваниям

HOLA_ECOLI / HOLA_BACSU
При глобальном выравнивании наблюдается низкий процент идентичности (18,2%), большое количество гэпов (110) и инделей (19). Локальное выравнивание даёт более высокий score (92 против 73) и лучшие показатели идентичности и сходства при меньшем числе гэпов (66) и инделей (14). Покрытие составило 87,8% и 74,6%, что указывает на наличие негомологичных участков. Белки не гомологичны по всей длине, но содержат консервативный домен. Локальное выравнивание в данном случае информативнее глобального, так как белки, вероятно, имеют общий функциональный домен, но различаются по структуре за его пределами.

MAA_ECOLI / MAA_BACSU
Оба типа выравнивания показывают высокие значения идентичности (64,3-64,7%) и сходства (78,9-79,3%) при минимальном количестве гэпов и инделей. Локальное выравнивание покрывает практически полные последовательности (100% и 99,5%). Белки гомологичны по всей длине. Оба метода дают сопоставимые результаты, однако глобальное выравнивание здесь не уступает локальному и является вполне информативным.

CHER_ECOLI / CHER_BACSU
Глобальное выравнивание показало среднюю идентичность (26,5%) и достаточно большое число гэпов (70) с инделями (11). Локальное выравнивание показало немного больший score (306 против 291,5), улучшенные показатели идентичности (31,9%) и сходства (48,8%) при меньшем количестве гэпов (30) и инделей (8). Покрытие составляет 82,5% и 89,8%, что подтверждает наличие негомологичных областей. Белки не гомологичны по всей длине, но содержат протяжённый консервативный участок. Локальное выравнивание предпочтительнее, так как оно точнее указывает на сходство в консервативном домене.

4. Применение программ выравнивания к неродственным белкам

Для анализа неродственных белков были выбраны ARLY_ECOLI (аргининосукцинатлиаза Escherichia coli) и FUR_BACSU (белок регуляции захвата железа Bacillus subtilis). Выравнивания проводились по аналогии с разделами выше, результаты описаны в таблицах 3 и 4.

Таблица 3. Характеристики глобального парного выравнивания неродственных белков.
Protein Name 1 Protein Name 2 ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Argininosuccinate lyase Ferric uptake regulation protein ARLY_ECOLI FUR_BACSU 23 6.3 12.1 350 10
Таблица 4. Характеристики локального парного выравнивания неродственных белков.
Protein Name 1 Protein Name 2 ID 1 ID 2 Score % Identity % Similarity Gaps Indels % Cov.1 % Cov.2
Argininosuccinate lyase Ferric uptake regulation protein ARLY_ECOLI FUR_BACSU 37.5 26.3 37.4 19 4 21.7 16.1

Глобальное выравнивание показало крайне низкую идентичность (6,3%) и сходство (12,1%) при огромном количестве гэпов (350), что свидетельствует об отсутствии значимой гомологии и делает глобальное выравнивание неинформативным. Локальное выравнивание (water) дало более высокие показатели на выровненном участке: идентичность 26,3% и сходство 37,4% при значительно меньшем числе гэпов (19) и инделей (4), однако покрытие составило лишь 21,7% для ARLY_ECOLI и 16,1% для FUR_BACSU. Такой скачок идентичности при переходе от глобального к локальному методу является типичным артефактом для неродственных последовательностей (алгоритм находит короткий участок со случайно повышенным сходством, что не указывает на эволюционные отношения). Таким образом, обе последовательности следует считать неродственными, а локальное выравнивание в данном случае создаёт ложное впечатление о возможной гомологии.

5. Множественное выравнивание белков и импорт в Jalview

Для мнемоники CHER (Chemotaxis protein methyltransferase) в Swiss-prot было найдено 16 белков (запрос «(id:CHER_*) AND (reviewed:true)»). Пять из них (CHER_SALTY, CHER_LISIN, CHER_VIBAN, CHER_THEMA, CHER_RHIEC) были взяты для проведения множественного выравнивания с CHER_ECOLI и CHER_BACSU. Выравнивание строилось на kodomo программой muscle.

Сначала был создан списочный файл (cher.txt) с ID выбранных записей. Содержание файла:

sw:cher_ecoli sw:cher_bacsu sw:cher_salty sw:cher_lisin sw:cher_viban sw:cher_thema sw:cher_rhiec

Далее использовались команды:

seqret @cher.txt cher.fasta
muscle -align cher.fasta -output cher_alignment.fasta

Полученное выравнивание было импортировано в Jalview и раскрашено по проценту идентичности.

Файл с проектом Jalview

По результатам можно сказать, что все 7 белков гомологичны, так как несмотря на большое количество гэпов в начале и в конце последовательности, в выравнивании присутствуют несколько хорошо выраженных консервативных участков (столбцы 91-100, 130-144 и 239-279).

← Назад к практикумам второго семестра