Задание 1. Сравнение выравнивания гомологичных и негомологичных белков
В первом задании требовалось выбрать по 5 пар гомологичных и негомологичных белков сходной длины из организмов Escherichia Coli (strain K12) и Bacillus subtilis (strain 168). Гомологичные белки имеют совпадающую мнемонику функции в базе данных Uniprot. Для получения всех аннотированных записей я воспользовалась командой infoseq пакета EMBOSS. Помимо этого мною были проанализированы выравнивания пар белков из других организмов. Для бактерии E.Coli команда выглядела следующим образом:
Для каждой пары белков было произведено локальное и глобальное выравнивание.
Для упрощения задачи мною был написан bash-сценарий, принимающий на вход записи сравниваемых белков в формате Uniprot и выдающий файлы с последовательностями и двуми типами выравнивания. Результаты работы можно увидеть в итоговой таблице Excel.
Я заметила следующие различия в локальном и глобальном выравнивании одной и той же пары белков:
Глобальное выравнивание служит для выравнивания последовательностей по всей длине, тогда как локальное выравнивание использует части последовательностей, на которых прогнозируется максимальная гомология. Поэтому покрытие в глобальном выравнивании всегда составляет 100%, в локальном выравнивании процент может колебаться в широких пределах. Для ECOLI и BACSU он изменялся в пределах от 14,6 % до 100 %.
Локальное выравнивание имеет большее или равное количество очков по сравнению с глобальным выравниванием той же пары белков. То же самое можно сказать про процент схожих и идентичных аминокислотных остатков. Число гэпов и инделей при переходе от глобального выравнивания к локальному имеет тенденцию к уменьшению (но не всегда). Это можно довольно легко объяснить тем, что алгоритм локального выравнивания подбирает максимально сходный участок последовательностей, пренебрегая их общей длиной.
Похоже на то, что при локальном выравнивании негомологичных белков процент покрытия гораздо меньше. Поэтому при переходе от глобального выравнивания к локальному у негомологичных белков число гэпов и инделей резко сокращается, часто в несколько раз.
Гомологию белков легче выявить по глобальному выравниванию их последовательностей. Самые низкие проценты сходимости и идентичности гомологичных белков составили 22,1% и 37,4%, тогда как самые высокие проценты среди негомологичных белков - 15,4% и 26% соответственно. Однако выборка слишком мала, чтобы утверждать, что эти значения не могут сильнее приблизиться друг другу или совпасть.
На основе локального выравнивания не всегда можно отличить гомологичные белки от негомологичных. Я нашла пару гомологичных и негомологичных белков, которые совпадают по большому числу показателей (сходимость, индентичность, гэпы, индели). Тогда может помочь процент покрытия - у негомологичных белков он меньше.
Число гэпов(одиночных) в глобальном выравнивании гомологичных белков в разы меньше, чем при глобальном выравнивании негомологичных белков. В моём случае общее число первых не превышает ста, у вторых - больше ста, в основном несколько сотен (зависит еще и от длины).
Задание 2. Множественное выравнивание.
Для выполнения задания 2 мною был выбран белок цитохром b(мнемоника CYB). Цитохром b - компонент убихинол-цитохром с-оксидоредуктазы (комплекс III) - части дыхательной цепи переноса электронов и важнейшего биохимического генератора протонного градиента на мембране митохондрий.
Результат множественного выравнивания 8 последовательностей находится в файле (jvp). Из выровненных последовательностей я выбрала 2 гомологичные, но самые удалённые друг от друга. Такими оказались CYB_MAIZE и CYB_PLAVS. Результаты 3 различных выравниваний одной пары белков можно увидеть во втором проекте (jvp). Чтобы последовательности в одном окне не выравнивались между собой, я создала группы и раскрасила их независимо (Clustal).
Рисунок 1.
Сравнение выравниваний белков CYB_MAIZE и CYB_PLAVS. Три парных выравнивания сверху вниз соответственно: множественное, глобальное, локальное.
В выравниваниях можно заметить несколько отличий:
В парах из множественного и глобального выравниваний различается положение гэпов. Во множественном выравнивании гэпы стоят на 13-17 позициях, тогда как в глобальном выравнивании на 8-12 позициях(делеция остатков). Начиная с 23 остатка, второе выравнивание дублирует первое, 'отcтавая' на одну аминокислоту.
Глобальное выравнивание вставляет 3 гэпа (позиции 21-23 второй последовательности) на место аминокислот из множественного выравнивания (делеция остатков).
В локальном выравнивании отсутствуют аминокислоты из второй последовательности глобального выравнивания с 1 по 15.