1. Глобальное парное выравнивание гомологичных белков
Для сравнения были выбраны три пары белков с одинаковой мнемоникой функции в идентификаторах Swiss-Prot:
- DNAA_ECOLI и DNAA_BACSU
- ILVD_ECOLI и ILVD_BACSU
- PGK_ECOLI и PGK_BACSU
Мнемоники не начинаются на букву Y, а мнемоника ENO не использовалась, как требовалось в задании.
Использованные пары:
- Chromosomal replication initiator protein DnaA — DNAA_ECOLI / DNAA_BACSU
- Dihydroxy-acid dehydratase — ILVD_ECOLI / ILVD_BACSU
- Phosphoglycerate kinase — PGK_ECOLI / PGK_BACSU
Глобальное выравнивание выполнялось программой needle с параметрами по умолчанию.
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| Chromosomal replication initiator protein DnaA | DNAA_ECOLI | DNAA_BACSU | 990.0 | 42.3% | 61.9% | 43 | 9 |
| Dihydroxy-acid dehydratase | ILVD_ECOLI | ILVD_BACSU | 1384.5 | 46.2% | 61.9% | 86 | 11 |
| Phosphoglycerate kinase | PGK_ECOLI | PGK_BACSU | 908.0 | 47.4% | 66.7% | 17 | 7 |
2. Локальное парное выравнивание гомологичных белков
Те же три пары белков были выровнены программой water с параметрами по умолчанию.
Для локального выравнивания дополнительно были вычислены проценты покрытия первого и второго белка выравниванием.
Покрытие считалось по формуле:
Coverage = (длина участка, попавшего в локальное выравнивание / полная длина белка) · 100%
Для DnaA
- у DNAA_ECOLI в water выровнен участок с 3 по 456 аминокислоту, длина участка 454, полная длина белка 467, покрытие 97.2%;
- у DNAA_BACSU выровнен участок с 5 по 443 аминокислоту, длина участка 439, полная длина белка 446, покрытие 98.4%.
Для IlvD
- у ILVD_ECOLI выровнен участок с 1 по 608 аминокислоту, длина участка 608, полная длина белка 616, покрытие 98.7%;
- у ILVD_BACSU выровнен участок с 1 по 555 аминокислоту, длина участка 555, полная длина белка 558, покрытие 99.5%.
Для Pgk
- у PGK_ECOLI выровнен участок с 6 по 384 аминокислоту, длина участка 379, полная длина белка 387, покрытие 97.9%;
- у PGK_BACSU выровнен участок с 6 по 394 аминокислоту, длина участка 389, полная длина белка 394, покрытие 98.7%.
Таблица 2. Характеристики локального парного выравнивания трёх пар белков
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|
| Chromosomal replication initiator protein DnaA | DNAA_ECOLI | DNAA_BACSU | 994.0 | 43.6% | 63.5% | 33 | 7 | 97.2% | 98.4% |
| Dihydroxy-acid dehydratase | ILVD_ECOLI | ILVD_BACSU | 1389.5 | 46.8% | 62.7% | 81 | 10 | 98.7% | 99.5% |
| Phosphoglycerate kinase | PGK_ECOLI | PGK_BACSU | 908.0 | 48.1% | 67.5% | 14 | 6 | 97.9% | 98.7% |
4. Результат применения программ выравнивания к неродственным белкам
В качестве неродственной пары была выбрана пара белков с разными мнемониками функций:
- DNAA_ECOLI
- PGK_BACSU
Белок DnaA является инициатором репликации хромосомы, а Pgk — фосфоглицераткиназой. Это белки разных функциональных классов, поэтому заранее не ожидается, что они будут гомологичны.
4.1. Характеристики глобального выравнивания неродственной пары
Для random.needle были получены следующие значения:
- ID 1: DNAA_ECOLI
- ID 2: PGK_BACSU
- Score: 55.5
- % Identity: 12.7%
- % Similarity: 20.6%
- Gaps: 363
- Indels: 23
Глобальное выравнивание имеет очень низкий score, крайне низкий процент identity и similarity и очень большое число гэпов. Это говорит о том, что алгоритм формально построил глобальное выравнивание, но с биологической точки зрения оно малоосмысленно. Поскольку глобальный алгоритм обязан выровнять две последовательности по всей длине, он вынужден вставить огромное количество гэпов, чтобы как-то сопоставить несходные белки.
4.2. Характеристики локального выравнивания неродственной пары
Для random.water были получены следующие значения:
- ID 1: DNAA_ECOLI
- ID 2: PGK_BACSU
- Score: 70.0
- % Identity: 19.9%
- % Similarity: 33.4%
- Gaps: 107
- Indels: 15
Локальное выравнивание охватывает:
- у DNAA_ECOLI участок с 209 по 463 позицию;
- у PGK_BACSU участок с 97 по 308 позицию.
Полные длины:
- DNAA_ECOLI — 467 аминокислот;
- PGK_BACSU — 394 аминокислоты.
Покрытие составляет:
- Coverage 1 = 54.6%
- Coverage 2 = 53.8%
Локальное выравнивание даёт несколько более высокие проценты identity и similarity, чем глобальное, поскольку алгоритм выбирает только лучший по локальному score участок. Однако даже эти показатели остаются низкими. Покрытие обоих белков составляет чуть больше половины длины, а число гэпов всё равно остаётся очень большим. Следовательно, найденный локальный участок не выглядит как доказательство реальной гомологии.
4.3. Комментарий к выравниванию неродственной пары
В качестве неродственной пары были выбраны белки DNAA_ECOLI и PGK_BACSU. Глобальное выравнивание этих белков оказалось малоинформативным: score низкий, процент идентичных аминокислот составляет всего 12.7%, процент сходных — 20.6%, а число гэпов очень велико, 363. Это показывает, что белки не являются гомологичными по всей длине.
Локальное выравнивание дало несколько лучшие показатели: 19.9% identity и 33.4% similarity. Однако покрытие обоих белков составляет лишь около половины длины последовательностей: 54.6% для DNAA_ECOLI и 53.8% для PGK_BACSU. Следовательно, найденное локальное сходство охватывает только часть белков и, скорее всего, не отражает истинную гомологию, а связано со случайными совпадениями или общими физико-химическими ограничениями, которые могут возникать даже у неродственных белков.
Таким образом, результаты как глобального, так и локального выравнивания свидетельствуют о том, что выбранные белки неродственны.
5. Множественное выравнивание белков и импорт в Jalview
Для выполнения множественного выравнивания была выбрана мнемоника PGK. Рекомендованное полное имя белка из Escherichia coli K-12: Phosphoglycerate kinase.
В базе Swiss-Prot по запросу reviewed:true AND id:PGK_* было найдено 679 записей, идентификаторы которых начинаются с PGK.
Для анализа были выбраны 7 белков:
- PGK_ECOLI
- PGK_BACSU
- PGK_ENTFA
- PGK_STRTH
- PGK_LACJO
- PGK_COXBU
- PGK_KORVE
Как выполнялось выравнивание
Сначала последовательности были скачаны из UniProt в формате FASTA. Для этого использовались следующие идентификаторы:
- P0A799 → PGK_ECOLI
- P40924 → PGK_BACSU
- Q833I9 → PGK_ENTFA
- Q03IS8 → PGK_STRTH
- P62413 → PGK_LACJO
- Q83AU6 → PGK_COXBU
- Q1INK7 → PGK_KORVE
После этого все 7 FASTA-файлов были объединены в один общий файл pgk7.fasta. Множественное выравнивание выполнялось программой clustalo, результат был сохранён в файле pgk7.aln.fasta.
Полученное выравнивание было импортировано в Jalview. В Jalview были закрыты лишние окна, так что внутри программы осталось только окно с выравниванием. Колонки выравнивания были окрашены по Percentage Identity.
Файл проекта Jalview: pgk7_project.jvp
Комментарии к выравниванию
По полученному множественному выравниванию видно, что все 7 белков в целом выровнялись хорошо. Последовательности имеют близкую длину, а в выравнивании присутствуют длинные протяжённые участки, в которых у большинства последовательностей наблюдаются одинаковые или сходные аминокислоты. Сильно выбивающейся последовательности среди выбранных семи белков не видно. У отдельных последовательностей есть небольшие вставки и делеции, но они не нарушают общей структуры выравнивания и не мешают сопоставлению основных консервативных блоков.
Судя по характеру выравнивания, все выбранные белки, по-видимому, являются гомологичными. Этот вывод основан на том, что:
- последовательности имеют сходную общую длину;
- выравнивание охватывает их по всей длине;
- в нём есть несколько хорошо выраженных консервативных участков;
- общий рисунок замен аминокислот у разных белков согласован и не выглядит случайным.
В выравнивании заметна выраженная внутренняя структура: есть более консервативные и менее консервативные участки.
Более консервативные участки
Хорошо консервативны следующие области выравнивания:
- примерно столбцы 1–40;
- примерно столбцы 45–85;
- примерно столбцы 115–160;
- примерно столбцы 200–260;
- примерно столбцы 320–360;
- примерно столбцы 370–405.
В этих участках у большинства последовательностей совпадают либо сами аминокислоты, либо их химически сходные замены. Это хорошо видно и по окраске Percentage Identity, и по высоким столбикам на панели conservation.
Особенно заметны консервативные мотивы в средней и второй половине выравнивания, где одновременно наблюдаются:
- высокая заполненность колонок;
- мало гэпов;
- частые одинаковые буквы у большинства последовательностей.
Менее консервативные участки
Более вариабельные участки наблюдаются в следующих областях:
- примерно столбцы 85–115;
- примерно столбцы 160–190;
- примерно столбцы 260–320;
- примерно столбцы 405–425.
В этих областях чаще встречаются замены аминокислот и небольшие гэпы. По панели occupancy видно, что часть позиций заполнена не у всех белков, а по панели conservation высота столбиков в этих местах ниже, чем в наиболее консервативных блоках. Особенно вариабельными выглядят участки около 90–110 и 280–315 столбцов, где заметно больше вставок и различий между последовательностями.
Вывод по множественному выравниванию
Множественное выравнивание белков с мнемоникой PGK показывает, что выбранные последовательности хорошо сопоставляются друг с другом по всей длине и, по-видимому, принадлежат к одному гомологичному семейству белков. Выравнивание имеет выраженную блочную структуру: в нём выделяются хорошо консервативные участки, чередующиеся с более вариабельными. Наиболее консервативные области расположены главным образом в начале, в центральной части и во второй половине выравнивания, тогда как менее консервативные участки чаще соответствуют зонам с небольшими вставками и более свободной заменяемостью аминокислот.
3. Комментарии к выравниваниям
3.1. Пара DNAA_ECOLI — DNAA_BACSU
Глобальное выравнивание DnaA из E. coli и DnaA из B. subtilis имеет длину 478 аминокислотных позиций, score 990.0, identity 42.3%, similarity 61.9%, gaps 43 и суммарное число инделей 9. Локальное выравнивание имеет score 994.0, identity 43.6%, similarity 63.5%, gaps 33 и суммарное число инделей 7. Покрытие при локальном выравнивании очень высокое: 97.2% для DNAA_ECOLI и 98.4% для DNAA_BACSU.
Из этих данных следует, что белки гомологичны практически по всей длине. Локальное выравнивание охватывает почти весь белок, то есть не ограничивается каким-то одним коротким участком, а подтверждает общую гомологию почти всей последовательности. Разница между глобальным и локальным выравниванием в данном случае невелика: локальное выравнивание немного повышает score, identity и similarity, а число гэпов уменьшается. Это означает, что за счёт исключения самых слабо сопоставимых крайних участков программа water находит немного более «чистое» оптимальное совпадение, но в целом картина остаётся той же.
Следовательно, белки DnaA у двух организмов можно считать гомологичными почти по всей длине. Локальное выравнивание в этом случае информативно, но не даёт качественно новой информации по сравнению с глобальным: оно лишь слегка улучшает численные показатели. По сравнению самих выравниваний видно, что локальное выравнивание начинается не с первой позиции, а с третьей аминокислоты у DNAA_ECOLI и с пятой у DNAA_BACSU, а также заканчивается раньше полного конца последовательностей. Значит, крайние аминокислоты, которые в глобальном выравнивании были вынужденно сопоставлены друг с другом или с гэпами, в локальном выравнивании отброшены. Это и объясняет, почему некоторые пары букв в локальном выравнивании сопоставлены лучше, чем в глобальном: глобальный алгоритм обязан выравнивать всю длину, а локальный может игнорировать плохо совпадающие края.
3.2. Пара ILVD_ECOLI — ILVD_BACSU
Глобальное выравнивание IlvD имеет длину 630 позиций, score 1384.5, identity 46.2%, similarity 61.9%, gaps 86 и число инделей 11. Локальное выравнивание даёт score 1389.5, identity 46.8%, similarity 62.7%, gaps 81 и число инделей 10. Покрытие составляет 98.7% для ILVD_ECOLI и 99.5% для ILVD_BACSU.
Эти значения показывают, что два белка IlvD также гомологичны почти по всей длине. Локальное выравнивание почти полностью покрывает обе последовательности, следовательно, речь идёт не о коротком общем домене, а о сходстве практически целых белков. При этом локальное выравнивание снова даёт немного более высокие проценты identity и similarity и немного уменьшает число гэпов по сравнению с глобальным. Это указывает на то, что небольшие участки на краях или в отдельных слабо совпадающих местах ухудшают глобальное выравнивание, но не меняют общей картины.
Следовательно, для IlvD можно сделать вывод, что белки гомологичны по всей длине или почти по всей длине. Локальное выравнивание в этом случае полезно в основном как подтверждение того, что различия между белками не сосредоточены в каких-то отдельных крупных негомологичных вставках, а распределены по последовательности на фоне общего сходства. Если в локальном выравнивании какие-то пары аминокислот оказались сопоставлены, а в глобальном нет, это можно объяснить так же, как и для DnaA: глобальное выравнивание должно натянуть друг на друга всю длину последовательностей, а локальное выравнивание свободно исключает немного хуже согласующиеся области, поэтому в оставшемся участке буквенные соответствия оказываются чуть лучше.
3.3. Пара PGK_ECOLI — PGK_BACSU
Глобальное выравнивание Pgk имеет длину 399 позиций, score 908.0, identity 47.4%, similarity 66.7%, gaps 17 и число инделей 7. Локальное выравнивание имеет такой же score 908.0, но slightly лучшие показатели: identity 48.1%, similarity 67.5%, gaps 14 и число инделей 6. Покрытие равно 97.9% для PGK_ECOLI и 98.7% для PGK_BACSU.
Эта пара показывает особенно ясную картину общей гомологии почти по всей длине. Уже глобальное выравнивание имеет относительно высокий процент identity и similarity и немного гэпов. Локальное выравнивание практически не отличается по score, а отличия в процентах и числе гэпов минимальны. Это означает, что глобальное выравнивание и так хорошо отражает реальное соотношение белков, и программа water почти ничего не «исправляет», кроме нескольких крайних позиций.
Следовательно, белки Pgk у E. coli и B. subtilis гомологичны почти по всей длине. Локальное выравнивание в этом случае наименее информативно по сравнению с глобальным из всех трёх рассмотренных пар, потому что оно почти полностью повторяет глобальное. Если какие-то сопоставления букв в локальном выравнивании отсутствуют в глобальном, это связано главным образом с тем, что локальное выравнивание начинается с 6-й позиции обеих последовательностей и заканчивается немного раньше полного конца белков. То есть были исключены несколько крайних позиций, не влияющих на общую структуру выравнивания.
3.4. Общий вывод по трём гомологичным парам
Для всех трёх пар белков локальное выравнивание охватывает почти всю длину обеих последовательностей. Для DnaA покрытия составляют 97.2% и 98.4%, для IlvD — 98.7% и 99.5%, для Pgk — 97.9% и 98.7%. Это означает, что во всех трёх случаях белки гомологичны не только по отдельным участкам, а почти по всей длине.
Во всех случаях локальное выравнивание даёт немного лучшие численные показатели, чем глобальное: выше identity, выше similarity, меньше гэпов и меньше число инделей. Однако эта разница невелика. Следовательно, локальное выравнивание здесь не открывает принципиально новой структуры, а лишь немного улучшает видимость уже существующей общей гомологии. Наиболее информативным оно оказывается там, где есть слабо совпадающие крайние участки, но даже там оно не выделяет какого-то изолированного короткого домена, а подтверждает почти полную длину общей гомологии.