Файлы с белками кишечной и сенной палочки были созданы командами:
infoseq sw:*_ECOLI -only -name -nohead -out ECOLI.txt
infoseq sw:*_BACSU -only -name -nohead -out BACSU.txt
Пары с совпадающими мнемониками были выбраны командой linux:
cut -f 1 -d '_' ECOLI.txt BACSU.txt | sort | uniq -d >> mnems.txt
Для дальнейшего анализа было выбрано 3 пары белков с мнемониками: APT, EFG, FRLB.
Рекоммендованное название белка было определено командой:
entret sw:<protein_id> -filter | grep ^DE
Рекоменованные названия для белка с мнемоникой FRLB отличаются для кишечной и сенной палочки. В таблице указано название для кишечной палочки, название для сенной: Fructosamine deglycase FrlB.
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Adenine phosphoribosyltransferase | APT_BACSU | APT_ECOLI | 441.5 | 50.3% | 61.2% | 13 | 3 |
Elongation factor G | EFG_BACSU | EFG_ECOLI | 2156.0 | 61.3% | 74.8% | 14 | 2 |
Fructoselysine 6-phosphate deglycase | FRLB_BACSU | FRLB_ECOLI | 365.0 | 28.3% | 42.9% | 54 | 9 |
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Adenine phosphoribosyltransferase | APT_BACSU | APT_ECOLI | 450.0 | 56.2% | 66.7% | 0 | 0 | 95.3% | 88.5% |
Elongation factor G | EFG_BACSU | EFG_ECOLI | 2158.0 | 61.6% | 74.9% | 13 | 1 | 99.3% | 99.4% |
Fructoselysine 6-phosphate deglycase | FRLB_BACSU | FRLB_ECOLI | 365.5 | 29.7% | 45.8% | 34 | 7 | 96.6% | 90.9% |
Program | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Needle | COAD_BACSU | CYSK_ECOLI | 25.5 | 10.7% | 16.0% | 242 | 12 | - | - |
Water | COAD_BACSU | CYSK_ECOLI | 37.5 | 21.4% | 31.5% | 59 | 11 | 96.0% | 41.5% |
Из таблиц 1,2 видно, что белки с одинаковыми мнемониками, вероятно, являются гомологичными, так как идентичность выше 25%. В то же время, сравнивая эти результаты с таблицей 3, видно, что выравнивания белков с различными мнемониками хуже по всем параметрам (ниже процент идентичных аминокислот, вес, больше гэпов, для локального выравнивания меньше покрытие).
Для множесвенного выравнивания был выбран белок с рекомендуемым названием: Elongation factor G (фактор элонгации G). Белки с мнемоникой EFG были отобраны командой:
infoseq sw:EFG_* -only -name -nohead -out EFG_multiple.txt
Было найдено 672 белка (определено программой wc) Для множесвтенного выравнивания были выбраны 5 белков с id: EFG_FRASN, EFG_LISMC, EFG_LISIN, EFG_CARRP, EFG_SALEP. Множественное выравнивание строилось программой muscle, визуализировалось программой JalView. Файл JalView Project
Видно, что все белки выровнялись примерно в одинаковой степени хорошо, и, вероятно, являются гомологичными. В начале белка (координаты с 12 по 112 а.к.) есть несколько достаточно длинных консервативных участков, которые, возможно, важны для функционирования белковой молекулы.