Выравнивание белков E. coli и B. subtilis
Глобальное парное выравнивание гомологичных белков
Для выполнения практикума я дописал несколько функций в код, использованный для прошлого практикума. Ссылка на скрипт. Я выполнил поиск записей с одинаковым ID и выбрал для выравнивания три первых ID из выдачи: THIS_ECOLI, 6PGD_ECOLI и SODM_ECOLI. Индели для этого задания я считал вручную.
Имя белка | ID первого белка | ID второго белка | Вес выравнивания | Идентичность, % | Схожесть, % | Количество гэпов | Количество инделей |
---|---|---|---|---|---|---|---|
Sulfur carrier protein ThiS | THIS_ECOLI | THIS_BACSU | 42 | 20.9 | 44.8 | 1 | 1 |
6-phosphogluconate dehydrogenase, decarboxylating | 6PGD_ECOLI | 6PGD_BACSU | 1718 | 70.0 | 83.4 | 3 | 3 |
Superoxide dismutase [Mn] | SODM_ECOLI | SODM_BACSU | 639.5 | 58.9 | 66.5 | 10 | 3 |
Локальное парное выравнивание гомологичных белков
Покрытие и индели для этого задания я считал вручную, получая общую длину последовательности с помощью команды infoseq из пакета emboss.
Имя белка | ID первого белка | ID второго белка | Вес выравнивания | Идентичность, % | Схожесть, % | Количество гэпов | Количество инделей | Покрытие первого белка выравниванием, % | Покрытие второго белка выравниванием, % |
---|---|---|---|---|---|---|---|---|---|
Sulfur carrier protein ThiS | THIS_ECOLI | THIS_BACSU | 45 | 22.0 | 48.0 | 0 | 0 | 75.8 | 75.8 |
6-phosphogluconate dehydrogenase, decarboxylating | 6PGD_ECOLI | 6PGD_BACSU | 1719 | 70.1 | 83.6 | 3 | 3 | 99.8 | 99.8 |
Superoxide dismutase [Mn] | SODM_ECOLI | SODM_BACSU | 639.5 | 59.1 | 66.8 | 8 | 3 | 100.0 | 100.0 |
Парное выравнивание негомологичных белков
В этом задании считать индели вручную оказалось проблематично. Так что я написал на питоне функцию count_indels. Ссылка на скрипт. Программа работает на выравниваниях в формате FASTA.
ID первого белка | ID второго белка | Вес выравнивания | Идентичность, % | Схожесть, % | Количество гэпов | Количество инделей |
---|---|---|---|---|---|---|
6PGD_ECOLI | SODM_BACSU | 43.5 | 8.3 | 15.1 | 366 | 17 |
Забавно, что вес этого выравнивания получился больше чем у выравнивания THIS_ECOLI и THIS_BASCU. Это как нельзя лучше подтверждает, что вес выравнивания не несет инофрмации о гомологии белков. Также, как видно невелики доли идентичности и схожести аминокислотных последовательностей, а доли гэпов и инделей для последовательностей поистине велики. Этого вполне можно было ожидать от выравнивания негомологичных белков.
ID первого белка | ID второго белка | Вес выравнивания | Идентичность, % | Схожесть, % | Количество гэпов | Количество инделей | Покрытие первого белка выравниванием, % | Покрытие второго белка выравниванием, % |
---|---|---|---|---|---|---|---|---|
6PGD_ECOLI | SODM_BACSU | 52.5 | 23.3 | 37.1 | 42 | 9 | 31.0 | 64.9 |
Как и ожидалось проценты покрытия белков выравниванием невелики, так как белки негомологичны.
Множественное выравнивание белков
Я выбрал для множественного выравнивания марганцевую супероксиддисмутазу (Superoxide dismutase [Mn]), мнемоника этого белка: SODM. По запросу (id:SODM_*) в базу данных UniProt я получил 154 результата, из которых выбрал самые верхние: SODM_HUMAN, SODM_MOUSE, SODM_ECOLI, SODM_DROME, SODM_RAT, SODM_BACSU и SODM_CRYNH. Ссылка на Jalview проект. Белки выровнлись неплохо, явно видно островки гомологичности в последовательностях. Очевидно, белки и вправду гомологичны. Первая интересная особенность выравнивания - у прокариот (E. coli и B. subtilis) нет куска последвательности белка на N-конце. Действительно, у всех остальных организмов этот белок присутствует в митохондриях и, если посмотреть в анннотацию к человеческой супероксиддисмутазе, то в таблице особенностей можно увидеть указание на то, что этот кусок белка - транзитная последовательность для прохода в митохондрию. Продолжая смотреть в аннотацию к человеческому белку, я просматривал выравнивание и нашел ожидаемую закономерность. Окружениям сайтов связывания иона марганца (Mn2+) соответсвуют более консервативные участки выравнивания (~30-~70, 98-~115 и ~200-~230). Также есть островки консервативности в районе 140, 160 и 180. Предположу, что эти аминокислоты находятся неподалеку от активного центра.
Параметры программ needle и water
Обе программы запрашивают два значения: Gap opening penalty и Gap extension penalty (штраф за открытие инделя и штраф за удлинение инделя соответственно). Интересно, что два алгоритма при одних и тех же значениях этих парамтеров (по умолчанию 10 и 0.5 соответственно) при выравнивании SODM_ECOLI и SODM_BACSU получили разные конфигурации гэпов и инделей. Попробую постепенно повышать параметр Gap extension penalty, для программы needle, чтобы привести конфигурацию гэпов и инделей в выравнивании SODM_ECOLI и SODM_BACSU к таковой в выдаче программы water. Действительно, уже при повышении значения по умолчанию (0.5) на 0.1 (0.6) выравнивание программы needle совпало с выравниванием программы water со значениями по умолчанию. Как и ожидалось, при повышении Gap extension penalty инделей стало больше, но они стали короче.
Попробую с помощью изменения значения Gap opening penalty запретить индели для программы needle и выравнять SODM_ECOLI и SODM_BACSU. При значении Gap opening penalty равном 25 в выравнивании было всего два инделя (2 и 6 гэпов). При дальнейшем повышении значения Gap opening penalty до максимума (100) выравнивание оставалось таким же. Полностью запретить индели не вышло, но вышло уменьшить их количество.