Используя поиск по Entry name [ID], по запросу "*_ECOLI" / "*_BACSU" в Uniprot скачал два списка ID в формате Excel, отсортировал оба столбца идентификаторов по алфавиту, поставил рядом, нашел три совпадающих по мнемонике. Вернулся в Uniprot, открыл в виде текста записи по трем выбранным ID, используя поиск по странице (ctrl + F), по запросу "RecName:" определил рекомендуемые полные имена белков. Далее при помощи программы needle пакета EMBOSS выровнял их.
needle sw:allb_ecoli sw:allb_bacsu allb.needle -auto
needle sw:allc_ecoli sw:allc_bacsu allc.needle -auto
needle sw:allp_ecoli sw:allp_bacsu allp.needle -auto
Но что-то пошло не так, вероятно, проблема с локальной копией swissprot на сервере Поэтому мне пришлось скачать fasta файлы на сервер и ссылаться на них (и делать так в дальнейшем)
needle term2/pr9/ALLB_ECOLI.fasta.txt term2/pr9/ALLB_BACSU.fasta.txt term2/pr9/allb.needle -auto
needle term2/pr9/ALLC_ECOLI.fasta.txt term2/pr9/ALLC_BACSU.fasta.txt term2/pr9/allc.needle -auto
needle term2/pr9/ALLP_ECOLI.fasta.txt term2/pr9/ALLP_BACSU.fasta.txt term2/pr9/allp.needle -auto
Получилась таблица
Putative allantoin permease — название белка у Escherichia coli соответствует Allantoin permease у Bacillus subtilis, в остальном разночтений нет
Для локального выравнивания использовал программу water следующие команды
water term2/pr9/ALLB_ECOLI.fasta.txt term2/pr9/ALLB_BACSU.fasta.txt term2/pr9/allb.water -auto
water term2/pr9/ALLC_ECOLI.fasta.txt term2/pr9/ALLC_BACSU.fasta.txt term2/pr9/allc.water -auto
water term2/pr9/ALLP_ECOLI.fasta.txt term2/pr9/ALLP_BACSU.fasta.txt term2/pr9/allp.water -auto
Провел глобальное и локальное выравнивание с белками ACCA_ECOLI и 3MGA_BACSU.
needle term2/pr9/ACCA_ECOLI.fasta.txt term2/pr9/3MGA_BACSU.fasta.txt term2/pr9/acca_3mga.needle -auto
water term2/pr9/ACCA_ECOLI.fasta.txt term2/pr9/3MGA_BACSU.fasta.txt term2/pr9/acca_3mga.water -auto
Результаты представлены в таблице ниже:
Как и ожидалось, у случайно взятых белков вес выравниваний значительно меньше, гэпов больше. Интересно, что алгоритм локального выравнивания, тем не менее, нашел участок с ~20% идентичностью.
Выравнивание было выполнено в Jalview с помощью программы Muscle with Defaults, там же из Uniprot по их идентификаторам были получены последовательности белков
Результат можно посмотреть здесь
Все белки хорошо выровнялись, по моему мнению, все гомологичны, так как есть выраженные консервативные участки (28-31, 53-68, 71-77, 93-101, 212-224, 315-322).