Я скачала с Uniprot записи аннотированных записей для Escherichia coli и Bacillus subtilis с помощью команд:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(reviewed:true) AND (organism_id:83333)' -O ~/term2/pr9/ecoli.swiss.gz
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(reviewed:true) AND (organism_id:224308)' -O ~/term2/pr9/bacsu.swiss.gz
Затем нашла пары белков с одинаковой мнемоникой функции с помощью команд:
cat bacsuecoli.swiss.gz | grep '^ID' | sed -r 's/_.+//' > id.txt
cat id.txt | sort | uniq -c > common_mnems.txt
Я выбрала белки, которые 3 белка из тех, что были хорошо аннотированы: ASNB, BCSA и DNLJ
Выравнивания были получены с помощью команд:
needle sw:asnb_ecoli sw:asnb_bacsu asnb.needle -auto
needle sw:bcsa_ecoli sw:bcsa_bacsu bcsa.needle -auto
needle sw:dnlj_ecoli sw:dnlj_bacsu dnlj.needle -auto
Их результаты представлены в таблице:
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Asparagine synthetase B* | ASNB_ECOLI | ASNB_BACSU | 541.0 | 25.3% | 39.8% | 230 | 28 |
Cellulose synthase catalytic subunit* | BCSA_ECOLI | BCSA_BACSU | 21.0 | 7.7% | 12.6% | 723 | 23 |
DNA ligase | DNLJ_ECOLI | DNLJ_BACSU | 1623.5 | 49.3% | 67.7% | 15 | 7 |
*Для Bacillus subtilis указано другое рекомендованное полное имя
Локальные выравнивания были получены с помощью команд:
water sw:anb_ecoli sw:asnb_bacsu asnb.water -auto
water sw:bcsa_ecoli sw:bcsa_bacsu bcsa.water -auto
water sw:dnlj_ecoli sw:dnlj_bacsu dnlj.water -auto
Результаты представлены в таблице:
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Asparagine synthetase B* | ASNB_ECOLI | ASNB_BACSU | 554.5 | 28.0% | 43.7% | 169 | 25 | 91.2% | 92.4% |
Cellulose synthase catalytic subunit* | BCSA_ECOLI | BCSA_BACSU | 40.5 | 25.4% | 39.0% | 21 | 2 | 6.8% | 10.4% |
DNA ligase | DNLJ_ECOLI | DNLJ_BACSU | 1627.5 | 49.8% | 68.3% | 13 | 6 | 99.1% | 98.8% |
*Для Bacillus subtilis указано другое рекомендованное полное имя
Для сравнения я выбрала белки ASNB_ECOLI и DNLJ_BACSU. Результаты глобального и локального выравниваний приведены в таблице:
Тип выравнивания | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Глобальное | ASNB_ECOLI | DNLJ_BACSU | 49.5 | 8.7% | 14.9% | 646 | 25 | - | - |
Локальное | ASNB_ECOLI | DNLJ_BACSU | 65.0 | 19.1% | 33.7% | 134 | 21 | 52.3% | 47.6% |
Как и ожидалось, все показатели оказались ниже, чем у гомологиченых белков ASNB-ECOLI, ASNB_BACSU и DNLJ_ECOLI, DNLJ_BACSU. Однако при выравнивании белков BCSA_ECOLI и BCSA_BACSU все результаты оказались ниже, чем при выравнивании негомологичных белков. Это говорит о том, что белки BCSA_ECOLI и BCSA_BACSU претерпели сильную дивергенцию в процессе эволюции.
Для множественного выравнивания я выбрала ДНК-лигазу (DNLJ). Рекомендованное полное имя для ECOLI – DNA ligase. По запросу (id:DNLJ_*) AND (reviewed:true) было найдено 789 результатов. Из них я выбрала DNLJ_HALVD, DNLJ_MYCTU, DNLJ_THEFI, DNLJ_LISW6, DNLJ_PELPD.
Выравнивание было сделано в Jalview. Ссылка на проект Все белки хорошо выравнялись, и в выравнивании есть много консервативных участков, что говорит о гомологичности белков. Например, консервативные участки: 82-87, 229-244, 240-352. Также имеются и неконсервативные участки, например: 1-37, 633-650