Семестр 2. Практикум 9. Выравнивание белков

2. Глобальное парное выравнивание гомологичных белков

2.1. Получение списков идентификаторов

На сайте UniProt с помощью расширенного поиска были скачаны два списка аннотированных (Reviewed, Swiss-Prot) записей в формате TSV. столбцы: Entry, Reviewed, Entry Name, Protein names, Gene names, Organism, Length.

Для E. coli K12 (reviewed:true AND organism_id:83333) получена 4351 запись. Файл сохранён на сервере как ecoli.txt.

Для B. subtilis штамм 168 (reviewed:true AND organism_id:224308) получена 4191 запись. Файл сохранён на сервере как bacsu.txt.

2.2. Поиск пар с совпадающими мнемониками функции

Из колонки Entry Name каждого TSV-файла извлекалась функциональная мнемоника — часть идентификатора до символа подчёркивания (например, ENO из ENO_ECOLI). Затем находилось пересечение множеств мнемоник двух организмов. Для автоматизации использовался скрипт find_common_mnemonics.py. Из результатов исключены мнемоники, начинающиеся с буквы Y, а также мнемоника ENO.

Для дальнейшей работы выбраны три пары (*):

¹ Полное название в записи 6PGD_BACSU: «6-phosphogluconate dehydrogenase, NADP(+)-dependent, decarboxylating» AltName: GNTZII.
² Полное название в записи ABRB_BACSU: «Transition state regulatory protein AbrB».

Полные названия белков RecName: Full были получены на сервере с помощью скрипта prot_names.sh, который для каждого идентификатора запускал команду entret с фильтрацией по полю DE.

2.3. Глобальное парное выравнивание needle

Для каждой пары выполнено глобальное парное выравнивание программой needle из пакета EMBOSS (с параметрами по-умолчанию). Команды запускались на сервере kodomo с помощью скрипта run_needle.sh. Получены файлы: 6pgd.needle, 6pgl.needle, abrb.needle.

2.4. Подсчёт характеристик выравниваний

Score, процент идентичности, процент сходства, число гэпов и инделей извлекались из файлов выравниваний скриптом parse_needle.py.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков (*)

ID 1 ID 2 Score % Identity % Similarity Gaps Indels
6PGD_ECOLI 6PGD_BACSU 1718.0 70.0% 83.4% 3 3
6PGL_ECOLI 6PGL_BACSU 304.5 25.3% 42.0% 62 12
ABRB_ECOLI ABRB_BACSU 5.0 0.5% 0.9% 420 2

3. Локальное парное выравнивание гомологичных белков

3.1. Локальное парное выравнивание water

Те же три пары белков выровнены программой water из пакета EMBOSS. Команды запускались скриптом run_water.sh. Получены файлы: 6pgd.water, 6pgl.water, abrb.water.

3.2. Подсчёт характеристик и покрытия

Score, процент идентичности, процент сходства, число гэпов, инделей и покрытие каждой последовательности выравниванием извлекались скриптом parse_water.py. Покрытие вычислялось как отношение длины выровненного участка (от первой до последней координаты) к полной длине последовательности, взятой из исходных TSV-файлов UniProt.

Таблица 2. Характеристики локального парного выравнивания трёх пар белков (*)

ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
6PGD_ECOLI 6PGD_BACSU 1719.0 70.1% 83.6% 3 3 99.8% 99.8%
6PGL_ECOLI 6PGL_BACSU 317.0 30.6% 48.7% 16 6 76.1% 75.1%
ABRB_ECOLI ABRB_BACSU 27.0 36.4% 81.8% 0 0 3.2% 11.5%

4. Комментарии к выравниваниям

6PGD_ECOLI / 6PGD_BACSU

Пара 6-фосфоглюконатдегидрогеназ демонстрирует высокое качество выравнивания: 70% идентичности и 83% сходства при глобальном выравнивании. Локальное выравнивание охватывает практически всю длину обоих белков (около 99.8%), а его характеристики почти не отличаются от глобального. Это убедительно свидетельствует о том, что белки гомологичны по всей длине — они, по всей видимости, являются ортологами, выполняющими одну и ту же функцию в двух организмах. Локальное выравнивание в данном случае не даёт дополнительной информации по сравнению с глобальным.

6PGL_ECOLI / 6PGL_BACSU

Для пары 6-фосфоглюконолактоназ картина менее однозначна. Глобальное выравнивание показывает умеренную идентичность (25.3%) при относительно высоком сходстве (42.0%), однако содержит 62 гэпа и 12 инделей, что указывает на значительные структурные различия. Локальное выравнивание охватывает около 75% длины каждого белка с несколько более высокой идентичностью (30.6%), что говорит о наличии хорошо сохранившегося центрального домена. Оставшиеся ~25% последовательностей, не вошедшие в локальное выравнивание, по всей видимости, содержат вставки или дивергировавшие участки, которые глобальное выравнивание вынуждено сопоставлять принудительно, ухудшая общую картину. Таким образом, белки гомологичны, но не по всей длине; локальное выравнивание здесь более информативно, так как выделяет действительно консервативный участок.

ABRB_ECOLI / ABRB_BACSU

Пара регуляторов AbrB — наиболее интересный случай. Глобальное выравнивание даёт крайне низкие показатели: Score всего 5.0, идентичность 0.5%, 420 гэпов — фактически выравнивание вырождается в цепочку гэпов. Локальное выравнивание находит небольшой участок (Score 27.0, идентичность 36.4%, сходство 81.8%), однако покрытие составляет лишь 3.2% для ECOLI и 11.5% для BACSU. Это означает, что общий совпадающий фрагмент крайне мал (3 а.к. для ECOLI и 10 а.к. для BACSU). Высокий процент сходства на столь коротком участке, вероятно, является случайным совпадением, а не свидетельством гомологии. Несмотря на совпадение мнемоники AbrB, белки из двух организмов, по всей видимости, не являются гомологами — возможно, это случай переноса названия по функциональной аналогии. Локальное выравнивание в данном случае информативнее глобального: оно наглядно показывает отсутствие значимого гомологичного участка.

Следует отметить, что в паре ABRB локальное выравнивание сопоставило небольшой фрагмент с идентичностью 36%, тогда как в глобальном выравнивании эти же позиции оказались «размазаны» по огромному числу гэпов и фактически не сопоставлены значимо. Это объясняется принципом работы алгоритмов: needle обязан выровнять последовательности целиком и вынужден расставлять гэпы по всей длине, тогда как water находит лишь оптимальный локальный участок, игнорируя остальное.

5. Результат применения программ выравнивания к неродственным белкам

В качестве заведомо неродственной пары выбраны 6PGD_ECOLI (6-фосфоглюконатдегидрогеназа, метаболический фермент) и ABRB_BACSU (транскрипционный регулятор AbrB). Белки выполняют разные функции и имеют разные мнемоники.

Таблица 3. Характеристики выравнивания неродственных белков

ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
needle 6PGD_ECOLI ABRB_BACSU 26.5 4.3% 8.8% 372 5
water 6PGD_ECOLI ABRB_BACSU 35.5 18.4% 34.0% 26 3 22.0% 80.2%

Результаты выравнивания наглядно демонстрируют картину, характерную для неродственных белков. Глобальное выравнивание (needle) даёт Score 26.5 при идентичности всего 4.3% и 372 гэпах — выравнивание фактически вырождается, заполняясь гэпами по всей длине. Это сопоставимо с результатом для пары ABRB, которая, судя по всему, также не является гомологичной.

Локальное выравнивание (water) находит небольшой совпадающий участок (Score 35.5, идентичность 18.4%, сходство 34.0%), охватывающий 22% длины 6PGD_ECOLI и 80% длины ABRB_BACSU. Высокое покрытие по ABRB_BACSU объясняется тем, что этот белок значительно короче (около 90 аминокислот), и даже случайное совпадение короткого фрагмента даёт большой процент покрытия. Показатели идентичности при этом близки к фоновому уровню для неродственных белков. Всё это подтверждает, что выравнивание отражает случайное сходство, а не эволюционное родство.

6. Множественное выравнивание белков и импорт в Jalview

6.1 Выбор мнемоники и белков

Для множественного выравнивания выбрана мнемоника 6PGD — 6-фосфоглюконатдегидрогеназа. Рекомендованное полное название белка из E. coli: 6-phosphogluconate dehydrogenase, decarboxylating.

Поиск в UniProt по запросу (entry_name:6PGD_*) AND (reviewed:true) выдал 55 записей Swiss-Prot.

Помимо обязательных 6PGD_ECOLI и 6PGD_BACSU, для выравнивания выбраны пять белков из организмов разных таксономических групп:

6.2 Построение множественного выравнивания

Идентификаторы семи белков записаны в файл 6pgd_list.txt. С помощью программы seqret из пакета EMBOSS на сервере kodomo получен файл последовательностей в формате FASTA (6pgd_7.fasta). Затем запущена программа множественного выравнивания muscle с параметрами по-умолчанию:

muscle -align 6pgd_7.fasta -output 6pgd_7_aligned.fasta

Все команды выполнялись скриптом run_muscle.sh. Полученный файл выравнивания 6pgd_7_aligned.fasta импортирован в Jalview. Выравнивание раскрашено по проценту идентичности (Colour → Percentage Identity).

Множественное выравнивание 6PGD в Jalview

Рисунок 1. Множественное выравнивание семи последовательностей 6-фосфоглюконатдегидрогеназы в Jalview, раскраска по проценту идентичности.

Файл проекта Jalview на kodomo, на web-сервере.

Введите PDB:

3D-Модель 1. 6PGD

6.3 Комментарии к выравниванию

Все семь последовательностей хорошо выровнялись, без крупных разрывов, что свидетельствует о высокой структурной консервативности белка на всём протяжении. Выравнивание имеет выраженную неоднородную структуру.

Большая часть колонок окрашена в тёмно-синий цвет, соответствующий высокому проценту идентичности (более 80%). Это указывает на то, что фермент сохранил аминокислотную последовательность активного центра и структурно важных участков в ходе эволюции у организмов, разошедшихся более миллиарда лет назад. Особенно консервативны центральные участки выравнивания (колонки 50–350), где идентичность близка к 100% во многих позициях.

Менее консервативные участки (светлые колонки) сосредоточены преимущественно на N- и C-концах выравнивания, а также в нескольких коротких вставках в средней части. Это типичная картина для метаболических ферментов: каталитическое ядро строго консервативно, а периферийные петли и концы могут варьировать.

По всем признакам все семь белков являются гомологами — ортологами 6-фосфоглюконатдегидрогеназы. Высокое качество выравнивания, отсутствие крупных структурных несоответствий и консервативность по всей длине подтверждают общее эволюционное происхождение этих белков у бактерий, дрожжей, протистов и многоклеточных эукариот.

← К списку работ семестра