1. Глобальное парное выравнивание гомологичных белков
Из Uniprot были скачаны два списка идентификаторов: всех аннотированных записей, чьи ID кончаются на _ECOLI и на _BACSU. Далее с помощью команд Bash был составлен список подходящих (не начинающихся на Y и не являющихся ENO) совпадающих мнемоник:
Для проведения выравниваний были выбраны белковые пары HOLA_ECOLI и HOLA_BACSU, MAA_ECOLI и MAA_BACSU, CHER_ECOLI и CHER_BACSU. Последовательности каждой пары были выровнены программой needle при параметрах по умолчанию:
Результаты выравнивания представлены в таблице 1.
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| DNA pol. III subunit delta | HOLA_ECOLI | HOLA_BACSU | 73 | 18.2 | 33.8 | 110 | 19 |
| Maltose O-acetyltransferase* | MAA_ECOLI | MAA_BACSU | 632 | 64.3 | 78.9 | 3 | 3 |
| Chemotaxis protein methyltransferase | CHER_ECOLI | CHER_BACSU | 291.5 | 26.5 | 41.2 | 70 | 11 |
Индели были подсчитаны с помощью предварительно написанного скрипта на Python:
Полные имена белков были определены с помощью конвеера Bash:
*Рекомендованные полные имена для второго белка различаются в двух записях Swiss-Prot: в таблице приведено название для MAA_ECOLI. Рекомендованное полное имя для MAA_BACSU: Probable maltose O-acetyltransferase
2. Локальное парное выравнивание гомологичных белков
Подобранные ранее 3 пары белков были выровнены локально с помощью программы water на kodomo c параметрами по умолчанию:
Результаты выравнивания представлены в таблице 2.
| Protein Name | ID 1 / ID 2 | Score | % ID | % Sim. | Gaps | Indels | % Cov.1 | % Cov.2 |
|---|---|---|---|---|---|---|---|---|
| DNA pol. III subunit delta | HOLA_ECOLI / HOLA_BACSU | 92 | 19.5 | 37.5 | 66 | 14 | 87.8 | 74.6 |
| Maltose O-acetyltransferase* | MAA_ECOLI / MAA_BACSU | 632 | 64.7 | 79.3 | 2 | 2 | 100.0 | 99.5 |
| Chemotaxis protein methyltransferase | CHER_ECOLI / CHER_BACSU | 306 | 31.9 | 48.8 | 30 | 8 | 82.5 | 89.8 |
Для каждого белка количество инделей было рассчитано с использованием описанного выше скрипта. Процент покрытия последовательности локальным выравниванием вычислялся по формуле: (длина выровненного участка / полная длина последовательности) × 100%. Длина участка, попавшего в выравнивание, определялась по координатам начала и конца, указанным в файлах с результатами.
3. Комментарии к выравниваниям
HOLA_ECOLI / HOLA_BACSU
При глобальном выравнивании наблюдается низкий процент идентичности (18,2%), большое количество гэпов (110) и инделей (19). Локальное выравнивание даёт более высокий score (92 против 73) и лучшие показатели идентичности и сходства при меньшем числе гэпов (66) и инделей (14). Покрытие составило 87,8% и 74,6%, что указывает на наличие негомологичных участков. Белки не гомологичны по всей длине, но содержат консервативный домен. Локальное выравнивание в данном случае информативнее глобального, так как белки, вероятно, имеют общий функциональный домен, но различаются по структуре за его пределами.
MAA_ECOLI / MAA_BACSU
Оба типа выравнивания показывают высокие значения идентичности (64,3-64,7%) и сходства (78,9-79,3%) при минимальном количестве гэпов и инделей. Локальное выравнивание покрывает практически полные последовательности (100% и 99,5%). Белки гомологичны по всей длине. Оба метода дают сопоставимые результаты, однако глобальное выравнивание здесь не уступает локальному и является вполне информативным.
CHER_ECOLI / CHER_BACSU
Глобальное выравнивание показало среднюю идентичность (26,5%) и достаточно большое число гэпов (70) с инделями (11). Локальное выравнивание показало немного больший score (306 против 291,5), улучшенные показатели идентичности (31,9%) и сходства (48,8%) при меньшем количестве гэпов (30) и инделей (8). Покрытие составляет 82,5% и 89,8%, что подтверждает наличие негомологичных областей. Белки не гомологичны по всей длине, но содержат протяжённый консервативный участок. Локальное выравнивание предпочтительнее, так как оно точнее указывает на сходство в консервативном домене.
4. Применение программ выравнивания к неродственным белкам
Для анализа неродственных белков были выбраны ARLY_ECOLI (аргининосукцинатлиаза Escherichia coli) и FUR_BACSU (белок регуляции захвата железа Bacillus subtilis). Выравнивания проводились по аналогии с разделами выше, результаты описаны в таблицах 3 и 4.
| Protein Name 1 | Protein Name 2 | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|---|
| Argininosuccinate lyase | Ferric uptake regulation protein | ARLY_ECOLI | FUR_BACSU | 23 | 6.3 | 12.1 | 350 | 10 |
| Protein Name 1 | Protein Name 2 | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | % Cov.1 | % Cov.2 |
|---|---|---|---|---|---|---|---|---|---|---|
| Argininosuccinate lyase | Ferric uptake regulation protein | ARLY_ECOLI | FUR_BACSU | 37.5 | 26.3 | 37.4 | 19 | 4 | 21.7 | 16.1 |
Глобальное выравнивание показало крайне низкую идентичность (6,3%) и сходство (12,1%) при огромном количестве гэпов (350), что свидетельствует об отсутствии значимой гомологии и делает глобальное выравнивание неинформативным. Локальное выравнивание (water) дало более высокие показатели на выровненном участке: идентичность 26,3% и сходство 37,4% при значительно меньшем числе гэпов (19) и инделей (4), однако покрытие составило лишь 21,7% для ARLY_ECOLI и 16,1% для FUR_BACSU. Такой скачок идентичности при переходе от глобального к локальному методу является типичным артефактом для неродственных последовательностей (алгоритм находит короткий участок со случайно повышенным сходством, что не указывает на эволюционные отношения). Таким образом, обе последовательности следует считать неродственными, а локальное выравнивание в данном случае создаёт ложное впечатление о возможной гомологии.
5. Множественное выравнивание белков и импорт в Jalview
Для мнемоники CHER (Chemotaxis protein methyltransferase) в Swiss-prot было найдено 16 белков (запрос «(id:CHER_*) AND (reviewed:true)»). Пять из них (CHER_SALTY, CHER_LISIN, CHER_VIBAN, CHER_THEMA, CHER_RHIEC) были взяты для проведения множественного выравнивания с CHER_ECOLI и CHER_BACSU. Выравнивание строилось на kodomo программой muscle.
Сначала был создан списочный файл (cher.txt) с ID выбранных записей. Содержание файла:
Далее использовались команды:
Полученное выравнивание было импортировано в Jalview и раскрашено по проценту идентичности.
По результатам можно сказать, что все 7 белков гомологичны, так как несмотря на большое количество гэпов в начале и в конце последовательности, в выравнивании присутствуют несколько хорошо выраженных консервативных участков (столбцы 91-100, 130-144 и 239-279).