Выравнивание последовательностей

На данной странице представлен практикум по глобальному и локальному выравниваниям белковых последовательностей с помощью алгоритмов needle и water; а также по множественному выравниванию алгоритмом muscle и работе в программе Jalview. Использованные алгоритмы взяты из пакета EMBOSS, загруженного на kodomo.

1) Глобальное парное выравнивание гомологичных белков

Для поиска пар белков с одинаковой мнемоникой из бактерий Escherichia coli штамма K12 и Bacillus subtilis штамма 168 были применены следующие команды:

infoseq sw:*_ECOLI -only -name -noheading -auto > ecoli.txt
infoseq sw:*_BACSU -only -name -noheading -auto > bacsu.txt
cut -f 1 -d '_' ecoli.txt bacsu.txt | sort | uniq -d > uniqmnem.txt

Далее из всех парных мнемоник были выбраны следующие три: MSCL(Механочувствительный неселективный ионный канал, который открывается в ответ на растяжение в мембране. Открытие происходит при давлении близком к критическому для гибели клетки); DNAA(Белок инициатор репликации. Инициирует образование реплисомы, связываясь с ориджином репликации); IF1(Фактор инициации трансляции. Связывается с 30S субъединицей рибосомы, способствует стабилизации и связыванию ее с 50S субъединицей).

Для применения алгоритма глобального выравнивания needle к выбранным последовательностям были выполнены следующие команды:

needle sw:mscl_bacsu sw:mscl_ecoli mscl.needle -auto
needle sw:dnaa_bacsu sw:dnaa_ecoli dnaa.needle -auto
needle sw:if1_bacsu sw:if1_ecoli if1.needle -auto

Результаты данного выравнивания представлены в таблице 1. Матрица: EBLOSUM62; штраф за открытие: 10.0; штраф за удлинение: 0.5. Также можно ознакомиться с непосредственным результатом работы команд: 1, 2, 3.

Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Large-conductance mechanosensitive channel MSCL_BACSU MSCL_ECOLI 344.5 53.2% 68.3% 12 3
Chromosomal replication initiator protein DnaA DNAA_BACSU DNAA_ECOLI 990.0 42.3% 61.9% 43 9
Translation initiation factor IF-1 IF1_BACSU IF1_ECOLI 272.0 68.1% 88.9% 0 0
Таблица 1. Результаты глобального парного выравнивания

2) Локальное парное выравнивание гомологичных белков

Для выравнивания были взяты те же последовательности белков бактерий Escherichia coli штамма K12 и Bacillus subtilis штамма 168, что и для глобального выравнивания из задания 1. Для применения алгоритма локального выравнивания water к данным последовательностям были выполнены следующие команды:

water sw:mscl_bacsu sw:mscl_ecoli mscl.water -auto
water sw:dnaa_bacsu sw:dnaa_ecoli dnaa.water -auto
water sw:if1_bacsu sw:if1_ecoli if1.water -auto

Результаты данного выравнивания представлены в таблице 2. Матрица: EBLOSUM62; штраф за открытие: 10.0; штраф за удлинение: 0.5. Также можно ознакомиться с непосредственным результатом работы команд: 1, 2, 3.

Protein name ID 1 ID 2 Score Identity Similarity Gaps Indels Coverage1 Coverage2
Large-conductance mechanosensitive channel MSCL_BACSU MSCL_ECOLI 350.5 57.4% 72.9% 9 2 93.9% 93.4%
Chromosomal replication initiator protein DnaA DNAA_BACSU DNAA_ECOLI 994.0 43.6% 63.5% 33 7 98.4% 97.2%
Translation initiation factor IF-1 IF1_BACSU IF1_ECOLI 272.0 70.0% 90.0% 0 0 97,2 97,2
Таблица 2. Результаты локального парного выравнивания

3) Применение программ выравнивания к негомологичным белкам

Для выравнивания с помощью генератора случайных чисел были выбраны две негомологичные последовательности: CYDB из Bacillus subtilis (Субъединица 2 цитохрома bd убихинолоксидазы. Катализирует реакцию окисления убихинола кислородом до убихинона.) и ERA из Escherichia coli (Мембранная ГТФаза, участвующая в регуляции клеточного цикла и процессе трансляции). К выбранным последовательностям были применены алгоритмы глобального и локального выравнивания, более подробно описанные в пунктах 1 и 2.

Результаты глобального (алгоритм needle) и локального (алгоритм water) выравниваний представлены в таблицах 3 и 4 соответственно. Матрица: EBLOSUM62; штраф за открытие: 10.0; штраф за удлинение: 0.5. Также можно ознакомиться с непосредственным результатом работы команд: 1, 2.

ID 1 ID 2 Score % Identity % Similarity Gaps Indels
CYDB_BACSU ERA_ECOLI 16.5 9.2% 13.8% 363 14
Таблица 3. Результаты глобального парного выравнивания
ID 1 ID 2 Score Identity Similarity Gaps Indels Coverage1 Coverage2
CYDB_BACSU ERA_ECOLI 30.5 21.7% 34.8% 39 6 39.4% 34.7%
Таблица 4. Результаты локального парного выравнивания

4) Множественное выравнивание белков и импорт в Jalview

Для множественного выравнивания были выбраны белки с мнемоникой MSCL – механочувствительные неселективные ионные каналы из разных бактерий. Для получения общего количество белков с данной мнемоникой была выполнена следующая команда:

infoseq sw:MSCL_* -only -name -noheading -auto | wc -l

Всего белков с мнемоникой MSCL (Large-conductance mechanosensitive channel) в базе данных Swiss-Prot нашлось 381. Помимо белков Escherichia coli (MSCL_ECOLI), Bacillus subtilis (MSCL_BACSU) были выбраны белки Bdellovibrio bacteriovorus (MSCL_BDEBA), Pseudomonas entomophila (MSCL_PSEE4), Bacillus anthracis (MSCL_BACAC), Bacillus cereus (MSCL_BACCZ) и Alkaliphilus oremlandii (MSCL_ALKOO). Для выравнивания последовательности белков были сформированы в один файл, к которому для применения алгоритма muscle была применена следующая команда:

muscle -in mscl.fasta -out mscl_align.fasta

Далее файл с выровненными последовательностями был импортирован в программу Jalview для просмотра и редактирования:

Responsive image
Рис. 1 Выравнивание последовательностей белков MSCL, окрашивание по проценту идентичности.

Файл с проектом доступен по ссылке: файл. В последовательности наблюдаются консервативные участки: 6-41, 85-104, 129-140. Наиболее вариабельный участок 58-81; в нем, вероятно, произошло несколько инсерций/делеций. Но в целом между всеми последовательностями прослеживается гомология, что свидетельствует об общности их происхождения. Также примечательно высокое сходство между тремя последовательностями из рода Bacillus (MSCL_BACSU, MSCL_BACAC, MSCL_BACCZ), что подтверждает их близкое родство.

5) Выравнивание белка из практикума 8 с его гомологом

Поиск гомологов субъединицы C цитохрома фотосинтетического реакционного центра пурпурной бактерии Blastochloris viridis из практикума 8 решено было проводить по сходству мнемоники названия. Для этого была выполнена следующая команда:

infoseq sw:CYCR_* -auto -only -usa > cycr.txt

Всего нашлось 6 последовательностей с данной мнемоникой. Далее для оценки гомологичности белков было проведено множественное выравнивание найденных последовательностей с последующим экспортом в Jalview:

muscle -in cycr.fasta -out cycr_align.fasta

Визуальной оценкой было определено, что наибольшее сходство изучаемый белок имеет с последовательность CYCR_RUBGI из Rubrivivax gelatinosus. Для проведения глобального парного выравнивания данных последовательностей была выполнена следующая команда:

needle sw:CYCR_BLAVI sw:CYCR_RUBGI cycr.needle -auto

Результаты данного выравнивания представлены в таблице 5. Матрица: EBLOSUM62; штраф за открытие: 10.0; штраф за удлинение: 0.5.

ID 1 ID 2 Score % Identity % Similarity Gaps Indels
CYCR_BLAVI CYCR_RUBGI 805.0 44.0% 57.0% 46 10
Таблица 5. Результаты глобального парного выравнивания

Blastochloris viridis относится к классу альфа-протеобактерий, а Rubrivivax gelatinosus к бета-протеобактериям. Для столь далеких бактерий идентичность в 44% несомненно свидетельствует о гомологии данных белков. Одноко странным является факт наличия большого количества коротких (1-2 аминокислоты) инделей в выравнивании.

6) Параметры программ needle и water

По умолчанию в программах needle и water используется матрица EBLOSUM62, а штраф за открытие и за удлинение 10.0 и 0.5 соответственно. Если запустить праграммы без аргумента -auto, она предложит ввести штрафы самостоятельно. В таблицах 6 и 7 представлены результаты изменения параметров программ needle и water, которые были применены к последовательностям CYCR_BLAVI и CYCR_RUBGI.

ID 1 ID 2 Gap penalty Extend penalty Score % Identity % Similarity Gaps Indels
CYCR_BLAVI CYCR_RUBGI 20.0 1.0 709.0 43.5% 55.5% 46 10
CYCR_BLAVI CYCR_RUBGI 20.0 0.5 714.0 43.5% 55.5% 46 10
CYCR_BLAVI CYCR_RUBGI 10.0 1.0 800.0 44.0% 57.0% 46 10
CYCR_BLAVI CYCR_RUBGI 10.0 0.5 805.0 44.0% 57.0% 46 10
CYCR_BLAVI CYCR_RUBGI 10.0 0.25 810.5 43.6% 55.6% 58 11
CYCR_BLAVI CYCR_RUBGI 5.0 0.5 862.0 44.6% 57.1% 62 16
CYCR_BLAVI CYCR_RUBGI 5.0 0.25 870.5 44.2% 56.0% 78 21
Таблица 6. Результаты изменения параметров программы needle
© Беляев Геннадий, 2020 ‐ 2026