При помощи конвейеров команд bash я получил список мнемоник белков, которые есть в обоих протеомах. Глазами я выбрал три красивых мнемоники - APT, DPPA, LEXA.
Я выровнял белки под каждой мнемоникой, взятые у двух бактерий при помощи программы needle. Результаты приведены в таблице.
Protein name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
Adenine phosphoribosyltransferase | apt_ecoli | apt_bacsu | 441,5 | 50,3 | 61,2 | 13(7,1%) | 3 |
D-aminopeptidase | dppa_ecoli | dppa_bacsu | 31,0 | 10,5 | 15,9 | 413(67,6%) | 17 |
LexA repressor | lexa_ecoli | lexa_bacsu | 296,5 | 32,7 | 51,2 | 15(7,1%) | 5 |
На деле видно, что dppa белок выравнивается совершенно безобразно. В одной из бактерий он вдвое короче чем в другой. Я решил выбрать ещё одну какую-нибудь мнемонику.
Protein name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
Adenine phosphoribosyltransferase | apt_ecoli | apt_bacsu | 450,0 | 56,2 | 66,7 | 0 | 0 | 88,52% | 95,29% |
D-aminopeptidase | dppa_ecoli | dppa_bacsu | 50,5 | 32,3 | 46,8 | 12 | 3 | 11,40% | 18,24% |
LexA repressor | lexa_ecoli | lexa_bacsu | 300,5 | 33,5 | 52,4 | 13 | 4 | 94,55% | 95,61% |
Результат работы water:
Результат работы needle:
Для мнемоники APT (обозначает белок Adenine phosphoribosyltransferase в случае E. coli) я при помощи конвейера: infoseq 'sw:apt_*' -only -name -nohead -out absallapt.txt вывел все ID белков с этой мнемоникой в текстовый файл, потом при помощи конвейера cat absallapt.txt | wc -l посчитал количество строк. Всего в Uniprot нашлось 634 белка с этой мнемоникой.
Я отобрал несколько разных белков, по возможности из далёких систематических групп, импортировал последовательности их белков APT в JalView. Затем во вкладке Web Service->Alignment->Muscle with Defaults запустил множественное выравнивание последовательностей. Далее я раскрасил выравнвание по проценту идентичности.
В раскрашенном выравнивании очень хорошо видны консервативные колонки (17, 26, 31, 34, 36, 52, участок 70-74 и ещё немало). Также есть и очень вариативные участки (их много, но например 60-61, 15, 105, 112, 165)
Из наличия консервативных колонок в большом количестве, я делаю вывод, что все белки выравнивания гомологичны.
По ссылке можно посмотреть Jalview проект с выравниванием