На сайте UniProt с помощью расширенного поиска были скачаны два списка аннотированных (Reviewed, Swiss-Prot) записей в формате TSV. столбцы: Entry, Reviewed, Entry Name, Protein names, Gene names, Organism, Length.
Для E. coli K12 (reviewed:true AND organism_id:83333) получена 4351 запись. Файл сохранён на сервере как ecoli.txt.
Для B. subtilis штамм 168 (reviewed:true AND organism_id:224308) получена 4191 запись. Файл сохранён на сервере как bacsu.txt.
Из колонки Entry Name каждого TSV-файла извлекалась функциональная мнемоника — часть идентификатора до символа подчёркивания (например, ENO из ENO_ECOLI). Затем находилось пересечение множеств мнемоник двух организмов. Для автоматизации использовался скрипт find_common_mnemonics.py. Из результатов исключены мнемоники, начинающиеся с буквы Y, а также мнемоника ENO.
Для дальнейшей работы выбраны три пары (*):
6PGD_ECOLI / 6PGD_BACSU¹ — 6-фосфоглюконатдегидрогеназа (6-phosphogluconate dehydrogenase, decarboxylating)6PGL_ECOLI / 6PGL_BACSU — 6-фосфоглюконолактоназа (6-phosphogluconolactonase)ABRB_ECOLI / ABRB_BACSU² — регулятор AbrB (Putative regulator AbrB)AltName: GNTZII.Полные названия белков RecName: Full были получены на сервере с помощью скрипта prot_names.sh, который для каждого идентификатора запускал команду entret с фильтрацией по полю DE.
needleДля каждой пары выполнено глобальное парное выравнивание программой needle из пакета EMBOSS (с параметрами по-умолчанию). Команды запускались на сервере kodomo с помощью скрипта run_needle.sh. Получены файлы: 6pgd.needle, 6pgl.needle, abrb.needle.
Score, процент идентичности, процент сходства, число гэпов и инделей извлекались из файлов выравниваний скриптом parse_needle.py.
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков (*)
| ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|
6PGD_ECOLI |
6PGD_BACSU |
1718.0 | 70.0% | 83.4% | 3 | 3 |
6PGL_ECOLI |
6PGL_BACSU |
304.5 | 25.3% | 42.0% | 62 | 12 |
ABRB_ECOLI |
ABRB_BACSU |
5.0 | 0.5% | 0.9% | 420 | 2 |
waterТе же три пары белков выровнены программой water из пакета EMBOSS. Команды запускались скриптом run_water.sh. Получены файлы: 6pgd.water, 6pgl.water, abrb.water.
Score, процент идентичности, процент сходства, число гэпов, инделей и покрытие каждой последовательности выравниванием извлекались скриптом parse_water.py. Покрытие вычислялось как отношение длины выровненного участка (от первой до последней координаты) к полной длине последовательности, взятой из исходных TSV-файлов UniProt.
Таблица 2. Характеристики локального парного выравнивания трёх пар белков (*)
| ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|
6PGD_ECOLI |
6PGD_BACSU |
1719.0 | 70.1% | 83.6% | 3 | 3 | 99.8% | 99.8% |
6PGL_ECOLI |
6PGL_BACSU |
317.0 | 30.6% | 48.7% | 16 | 6 | 76.1% | 75.1% |
ABRB_ECOLI |
ABRB_BACSU |
27.0 | 36.4% | 81.8% | 0 | 0 | 3.2% | 11.5% |
Пара 6-фосфоглюконатдегидрогеназ демонстрирует высокое качество выравнивания: 70% идентичности и 83% сходства при глобальном выравнивании. Локальное выравнивание охватывает практически всю длину обоих белков (около 99.8%), а его характеристики почти не отличаются от глобального. Это убедительно свидетельствует о том, что белки гомологичны по всей длине — они, по всей видимости, являются ортологами, выполняющими одну и ту же функцию в двух организмах. Локальное выравнивание в данном случае не даёт дополнительной информации по сравнению с глобальным.
Для пары 6-фосфоглюконолактоназ картина менее однозначна. Глобальное выравнивание показывает умеренную идентичность (25.3%) при относительно высоком сходстве (42.0%), однако содержит 62 гэпа и 12 инделей, что указывает на значительные структурные различия. Локальное выравнивание охватывает около 75% длины каждого белка с несколько более высокой идентичностью (30.6%), что говорит о наличии хорошо сохранившегося центрального домена. Оставшиеся ~25% последовательностей, не вошедшие в локальное выравнивание, по всей видимости, содержат вставки или дивергировавшие участки, которые глобальное выравнивание вынуждено сопоставлять принудительно, ухудшая общую картину. Таким образом, белки гомологичны, но не по всей длине; локальное выравнивание здесь более информативно, так как выделяет действительно консервативный участок.
Пара регуляторов AbrB — наиболее интересный случай. Глобальное выравнивание даёт крайне низкие показатели: Score всего 5.0, идентичность 0.5%, 420 гэпов — фактически выравнивание вырождается в цепочку гэпов. Локальное выравнивание находит небольшой участок (Score 27.0, идентичность 36.4%, сходство 81.8%), однако покрытие составляет лишь 3.2% для ECOLI и 11.5% для BACSU. Это означает, что общий совпадающий фрагмент крайне мал (3 а.к. для ECOLI и 10 а.к. для BACSU). Высокий процент сходства на столь коротком участке, вероятно, является случайным совпадением, а не свидетельством гомологии. Несмотря на совпадение мнемоники AbrB, белки из двух организмов, по всей видимости, не являются гомологами — возможно, это случай переноса названия по функциональной аналогии. Локальное выравнивание в данном случае информативнее глобального: оно наглядно показывает отсутствие значимого гомологичного участка.
Следует отметить, что в паре ABRB локальное выравнивание сопоставило небольшой фрагмент с идентичностью 36%, тогда как в глобальном выравнивании эти же позиции оказались «размазаны» по огромному числу гэпов и фактически не сопоставлены значимо. Это объясняется принципом работы алгоритмов: needle обязан выровнять последовательности целиком и вынужден расставлять гэпы по всей длине, тогда как water находит лишь оптимальный локальный участок, игнорируя остальное.
В качестве заведомо неродственной пары выбраны 6PGD_ECOLI (6-фосфоглюконатдегидрогеназа, метаболический фермент) и ABRB_BACSU (транскрипционный регулятор AbrB). Белки выполняют разные функции и имеют разные мнемоники.
Таблица 3. Характеристики выравнивания неродственных белков
| ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 | |
|---|---|---|---|---|---|---|---|---|---|
needle |
6PGD_ECOLI |
ABRB_BACSU |
26.5 | 4.3% | 8.8% | 372 | 5 | — | — |
water |
6PGD_ECOLI |
ABRB_BACSU |
35.5 | 18.4% | 34.0% | 26 | 3 | 22.0% | 80.2% |
Результаты выравнивания наглядно демонстрируют картину, характерную для неродственных белков. Глобальное выравнивание (needle) даёт Score 26.5 при идентичности всего 4.3% и 372 гэпах — выравнивание фактически вырождается, заполняясь гэпами по всей длине. Это сопоставимо с результатом для пары ABRB, которая, судя по всему, также не является гомологичной.
Локальное выравнивание (water) находит небольшой совпадающий участок (Score 35.5, идентичность 18.4%, сходство 34.0%), охватывающий 22% длины 6PGD_ECOLI и 80% длины ABRB_BACSU. Высокое покрытие по ABRB_BACSU объясняется тем, что этот белок значительно короче (около 90 аминокислот), и даже случайное совпадение короткого фрагмента даёт большой процент покрытия. Показатели идентичности при этом близки к фоновому уровню для неродственных белков. Всё это подтверждает, что выравнивание отражает случайное сходство, а не эволюционное родство.
Для множественного выравнивания выбрана мнемоника 6PGD — 6-фосфоглюконатдегидрогеназа. Рекомендованное полное название белка из E. coli: 6-phosphogluconate dehydrogenase, decarboxylating.
Поиск в UniProt по запросу (entry_name:6PGD_*) AND (reviewed:true) выдал 55 записей Swiss-Prot.
Помимо обязательных 6PGD_ECOLI и 6PGD_BACSU, для выравнивания выбраны пять белков из организмов разных таксономических групп:
6PGD_HUMAN — Homo sapiens (человек)6PGD_DROME — Drosophila melanogaster (дрозофила)6PGD_HAEIN — Haemophilus influenzae (грамотрицательная бактерия)6PGD_TRYBB — Trypanosoma brucei brucei (протист)6PGD1_YEAST — Saccharomyces cerevisiae (дрожжи)Идентификаторы семи белков записаны в файл 6pgd_list.txt. С помощью программы seqret из пакета EMBOSS на сервере kodomo получен файл последовательностей в формате FASTA (6pgd_7.fasta). Затем запущена программа множественного выравнивания muscle с параметрами по-умолчанию:
muscle -align 6pgd_7.fasta -output 6pgd_7_aligned.fasta
Все команды выполнялись скриптом run_muscle.sh. Полученный файл выравнивания 6pgd_7_aligned.fasta импортирован в Jalview. Выравнивание раскрашено по проценту идентичности (Colour → Percentage Identity).
Рисунок 1. Множественное выравнивание семи последовательностей 6-фосфоглюконатдегидрогеназы в Jalview, раскраска по проценту идентичности.
Файл проекта Jalview на kodomo, на web-сервере.
3D-Модель 1. 6PGD
Все семь последовательностей хорошо выровнялись, без крупных разрывов, что свидетельствует о высокой структурной консервативности белка на всём протяжении. Выравнивание имеет выраженную неоднородную структуру.
Большая часть колонок окрашена в тёмно-синий цвет, соответствующий высокому проценту идентичности (более 80%). Это указывает на то, что фермент сохранил аминокислотную последовательность активного центра и структурно важных участков в ходе эволюции у организмов, разошедшихся более миллиарда лет назад. Особенно консервативны центральные участки выравнивания (колонки 50–350), где идентичность близка к 100% во многих позициях.
Менее консервативные участки (светлые колонки) сосредоточены преимущественно на N- и C-концах выравнивания, а также в нескольких коротких вставках в средней части. Это типичная картина для метаболических ферментов: каталитическое ядро строго консервативно, а периферийные петли и концы могут варьировать.
По всем признакам все семь белков являются гомологами — ортологами 6-фосфоглюконатдегидрогеназы. Высокое качество выравнивания, отсутствие крупных структурных несоответствий и консервативность по всей длине подтверждают общее эволюционное происхождение этих белков у бактерий, дрожжей, протистов и многоклеточных эукариот.