Выравнивание белков E. coli и B. subtilis

Глобальное парное выравнивание гомологичных белков

Для выполнения практикума я дописал несколько функций в код, использованный для прошлого практикума. Ссылка на скрипт. Я выполнил поиск записей с одинаковым ID и выбрал для выравнивания три первых ID из выдачи: THIS_ECOLI, 6PGD_ECOLI и SODM_ECOLI. Индели для этого задания я считал вручную.

Таблица 1. Глобальное парное выравнивание гомологичных белков
Имя белка ID первого белка ID второго белка Вес выравнивания Идентичность, % Схожесть, % Количество гэпов Количество инделей
Sulfur carrier protein ThiS THIS_ECOLI THIS_BACSU 42 20.9 44.8 1 1
6-phosphogluconate dehydrogenase, decarboxylating 6PGD_ECOLI 6PGD_BACSU 1718 70.0 83.4 3 3
Superoxide dismutase [Mn] SODM_ECOLI SODM_BACSU 639.5 58.9 66.5 10 3

Локальное парное выравнивание гомологичных белков

Покрытие и индели для этого задания я считал вручную, получая общую длину последовательности с помощью команды infoseq из пакета emboss.

Таблица 2. Локальное парное выравнивание гомологичных белков
Имя белка ID первого белка ID второго белка Вес выравнивания Идентичность, % Схожесть, % Количество гэпов Количество инделей Покрытие первого белка выравниванием, % Покрытие второго белка выравниванием, %
Sulfur carrier protein ThiS THIS_ECOLI THIS_BACSU 45 22.0 48.0 0 0 75.8 75.8
6-phosphogluconate dehydrogenase, decarboxylating 6PGD_ECOLI 6PGD_BACSU 1719 70.1 83.6 3 3 99.8 99.8
Superoxide dismutase [Mn] SODM_ECOLI SODM_BACSU 639.5 59.1 66.8 8 3 100.0 100.0

Парное выравнивание негомологичных белков

В этом задании считать индели вручную оказалось проблематично. Так что я написал на питоне функцию count_indels. Ссылка на скрипт. Программа работает на выравниваниях в формате FASTA.

Таблица 3. Глобальное парное выравнивание негомологичных белков
ID первого белка ID второго белка Вес выравнивания Идентичность, % Схожесть, % Количество гэпов Количество инделей
6PGD_ECOLI SODM_BACSU 43.5 8.3 15.1 366 17

Забавно, что вес этого выравнивания получился больше чем у выравнивания THIS_ECOLI и THIS_BASCU. Это как нельзя лучше подтверждает, что вес выравнивания не несет инофрмации о гомологии белков. Также, как видно невелики доли идентичности и схожести аминокислотных последовательностей, а доли гэпов и инделей для последовательностей поистине велики. Этого вполне можно было ожидать от выравнивания негомологичных белков.

Таблица 4. Локальное парное выравнивание негомологичных белков
ID первого белка ID второго белка Вес выравнивания Идентичность, % Схожесть, % Количество гэпов Количество инделей Покрытие первого белка выравниванием, % Покрытие второго белка выравниванием, %
6PGD_ECOLI SODM_BACSU 52.5 23.3 37.1 42 9 31.0 64.9

Как и ожидалось проценты покрытия белков выравниванием невелики, так как белки негомологичны.

Множественное выравнивание белков

Я выбрал для множественного выравнивания марганцевую супероксиддисмутазу (Superoxide dismutase [Mn]), мнемоника этого белка: SODM. По запросу (id:SODM_*) в базу данных UniProt я получил 154 результата, из которых выбрал самые верхние: SODM_HUMAN, SODM_MOUSE, SODM_ECOLI, SODM_DROME, SODM_RAT, SODM_BACSU и SODM_CRYNH. Ссылка на Jalview проект. Белки выровнлись неплохо, явно видно островки гомологичности в последовательностях. Очевидно, белки и вправду гомологичны. Первая интересная особенность выравнивания - у прокариот (E. coli и B. subtilis) нет куска последвательности белка на N-конце. Действительно, у всех остальных организмов этот белок присутствует в митохондриях и, если посмотреть в анннотацию к человеческой супероксиддисмутазе, то в таблице особенностей можно увидеть указание на то, что этот кусок белка - транзитная последовательность для прохода в митохондрию. Продолжая смотреть в аннотацию к человеческому белку, я просматривал выравнивание и нашел ожидаемую закономерность. Окружениям сайтов связывания иона марганца (Mn2+) соответсвуют более консервативные участки выравнивания (~30-~70, 98-~115 и ~200-~230). Также есть островки консервативности в районе 140, 160 и 180. Предположу, что эти аминокислоты находятся неподалеку от активного центра.

Параметры программ needle и water

Обе программы запрашивают два значения: Gap opening penalty и Gap extension penalty (штраф за открытие инделя и штраф за удлинение инделя соответственно). Интересно, что два алгоритма при одних и тех же значениях этих парамтеров (по умолчанию 10 и 0.5 соответственно) при выравнивании SODM_ECOLI и SODM_BACSU получили разные конфигурации гэпов и инделей. Попробую постепенно повышать параметр Gap extension penalty, для программы needle, чтобы привести конфигурацию гэпов и инделей в выравнивании SODM_ECOLI и SODM_BACSU к таковой в выдаче программы water. Действительно, уже при повышении значения по умолчанию (0.5) на 0.1 (0.6) выравнивание программы needle совпало с выравниванием программы water со значениями по умолчанию. Как и ожидалось, при повышении Gap extension penalty инделей стало больше, но они стали короче.

Попробую с помощью изменения значения Gap opening penalty запретить индели для программы needle и выравнять SODM_ECOLI и SODM_BACSU. При значении Gap opening penalty равном 25 в выравнивании было всего два инделя (2 и 6 гэпов). При дальнейшем повышении значения Gap opening penalty до максимума (100) выравнивание оставалось таким же. Полностью запретить индели не вышло, но вышло уменьшить их количество.