Выравнивание последовательностей
Первое задание
Список индикаторов я получил с помощью следующих команд на kodomo:
- infoseq 'sw:*_ECOLI' -only -name -nohead -out ECOLI.txt
- infoseq 'sw:*_BACSU' -only -name -nohead -out BACSU.txt
Чтобы найти белки с одинаковыми мнемониками функции, я использовал следующую команду на kodomo:
- cut -f 1 -d '_' ECOLI.txt BACSU.txt | sort | uniq -d > common_mnems.txt
Из них я случайным образом выбрал 3 белка со следующими мнемониками: MENE, PGK, SRP54. Чтобы определить соответствующие им полные имена белка, я использовал команду на kodomo, где на место MNEM я поочередно подставлял каждую из мнемоник функции:
- entret sw:MNEM_bacsu -filter | grep '^DE' - для штамма 168 сенной палочки
- entret sw:MNEM_ecoli -filter | grep '^DE' - для штамма K12 кишечной палочки
Далее я сделал глобальное выравнивание для каждой пары белков с одинаковыми мнемониками. Для этого я использовал следующую команду на kodomo, где на место MNEM я поочередно подставлял каждую из мнемоник функции:
- needle sw:MNEM_ecoli sw:MNEM_bacsu MNEM.needle -auto
Полученные результаты представлены в таблице 1.
Protein | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
2-succinylbenzoate--CoA ligase | MENE_ECOLI | MENE_BACSU | 426.5 | 27.1% | 43.8% | 73 | 17 |
Phosphoglycerate kinase | PGK_ECOLI | PGK_BACSU | 908.0 | 47.4% | 66.7% | 17 | 7 |
Signal recognition particle protein | SRP54_ECOLI | SRP54_BACSU | 1203.0 | 51.6% | 70.1% | 23 | 4 |
Второе задание
Далее для тех же пар белков я сделал локальное выравнивание, с помощью следующей команды на kodomo, где на место MNEM я поочередно подставлял каждую из мнемоник функции::
- water sw:MNEM_ecoli sw:MNEM_bacsu MNEM.water -auto
Полученные результаты представлены в таблице 2, Coverage 1 соответствует белку из кишечной палочки, Coverage 2- белку из сенной палочки
Protein | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
2-succinylbenzoate--CoA ligase | MENE_ECOLI | MENE_BACSU | 434.5 | 27.7% | 44.2% | 69 | 14 | 96.0% | 95.9% |
Phosphoglycerate kinase | PGK_ECOLI | PGK_BACSU | 908.0 | 48.1% | 67.5% | 14 | 6 | 97.9% | 98.7% |
Signal recognition particle protein | SRP54_ECOLI | SRP54_BACSU | 1205.0 | 54.0% | 73.3% | 8 | 2 | 95.4% | 98.2% |
Третье задание
Я случайным образом выбрал две мнемоники- SUFC и METN. Из кишечной палочки я взял белок с мнемоникой SUFC, а из сенной с мнемоникой METN. Для получения названия белков, локального и глобального выравнивания я использовал те же команды, что и в прошлых заданиях:
- entret sw:METN_bacsu -filter | grep '^DE' - для получения названия белка из штамма 168 сенной палочки
- entret sw:SUFC_ecoli -filter | grep '^DE' - для получения названия белка из штамма K12 кишечной палочки
- needle sw:SUFC_ecoli sw:METN_bacsu diff.needle -auto - для получения глобального выравнивания двух белков
- water sw:SUFC_ecoli sw:METN_bacsu diff.water -auto - для получения локального выравнивания двух белков
Результаты выравниваний представлены в таблице 3 и таблице 4.
Proteins | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Probable ATP-dependent transporter SufC and Methionine import ATP-binding protein MetN | MENE_ECOLI | MENE_BACSU | 168.0 | 17.7% | 33.2% | 147 | 11 |
Proteins | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Probable ATP-dependent transporter SufC and Methionine import ATP-binding protein MetN | MENE_ECOLI | MENE_BACSU | 171.0 | 24.4% | 44.7% | 50 | 10 | 96.4% | 68.9% |
Ожидамо, оба выравнивания получили очень маленький скор. Так как оба белка являются транспортерами и имеют сайт связывания с АТФ, они имеют какую-то долю идентичных аминокислот, связанных с выполнением этих функций. Интересно заметить, что при локальном выравнивании покрытие первого белка составило больше 96%, при это процент идентичности возрос с 17 до 24, при этом процент покрытия второго белка только 68.9. Может быть здесь выравнялись очень отдаленно гомологичные трансмембранные домены, и у второго белка их просто больше, а может быть, что эти белки не гомологичны, и сходство последовательностей объясняется исключительно похожими функциями этих белков.
Четвертое задание
Для этого задания я выбрал белки с мнемоникой функции SRP54, рекомендованное полное имя из ECOLI- Signal recognition particle protein. Помимо кишечной палочки и сенной палочки было найдено 94 организма с этой мнемоникой, для анализа я выбрал белки с ID SRP54_DANRE, SRP54_BUCAP, SRP54_HELPY, SRP54_ECOL6, SRP54_SYNY3. Эти белки принадлежат Danio rerio, Buchnera aphidicola subsp. Schizaphis graminum (strain Sg), Helicobacter pylori, Escherichia coli O6:H1 и Synechocystis sp. соответственно.
Выравнивание делалось в программе Jalview с использованием программы Muscle with Defaults. Колонки были раскрашены по проценту идентичности. Ссылка на Jalview проект. Все белки хорошо выравнялись и явно являются гомологичными. Присутствуют довольно консервативные сайты: 34-44 (один нуклеотид не консервативен), 109-112, 114-117, 145-146, 149-150, 192-197, 250-263, 297-301. Их консервативность объясняется тем, что они необходимы для правильной работы SRP54. Участки между ними и на С-конце белка (начиная с 441) являются менее консервативными.