При формировании запроса в BLAST по базе SwissProt я использовал код белка глицин-оксидазы бактерии Geobacillus kaustophilus из GenBank: BAD74908.1. Значения параметров я оставил по умолчанию, кроме некоторых. Выдачу я ограничил 10 результатами, expect threshold я повысил до 10, размер слов уменьшил до 3 букв и установил фильтр участков малой сложности. Я выбрал 6 белков из выдачи к запросу, добавил к ним глицин-оксидазу Geobacillus kaustophilus и построил множественное выравнивание с помощью программы muscle. Экспортировав выравнивание в формате fasta, я затем открыл его в Jalview и покрасил по проценту идентичности.
В целом, белки на выравнивании схожи, что подтверждается высоким весом и процентом сходства, и скорее всего гомологичны (идентификаторы белков можно посмотреть в проекте Jalview). Низкие значения E-value говорят, что находки гомологов достоверны. Все эти белки катализируют окислительно-восстановительные реакции с глицином у бактерий, что можно тоже считать одним из аргументов, подтвреждающих гомологию. Среди 7 белков в выравнивании есть два, которые заметно длиннее остальных и выровнены с ними с хорошей степенью сходства, но далеко не 100%-ым покрытием. Как следует из их описания в UniProt, это белки цианобактерий, несущие домены, сходные с глицин-оксидазой и с тиазол-синтазой. Это может быть связано с тем, что дегидроглицин участвует затем в образовании кольца тиазола, поэтому эти два процесса могут быть пространственно совмещены. Небольшие участки глицин-оксидаз, выровненные на длинные участки, гомологичные, видимо, тиазол-синтазе, по моему мнению являются небольшой ошибкой выравнивания, так как их наличие в таком виде трудно объяснить эволюционно.
Я выбрал полипротеин gag одного из мышиных вирусов лейкоза: Friend murine leukemia virus (isolate 57), AC="P26807", RecName: Full=Gag polyprotein, ID="GAG_MLVF5". Этот полипротеин содержит ключевые белки и характерен для большинства представителей отряда Ortervirales, представителями которого являются ретровирусы (Coffin et al., 1997). В нём я выбрал белок капсида p30 (Capsid protein p30, id="PRO_0000040898"), располагающийся на участке 217-479 остаток на полипротеине, и извлёк его с помощью программы descseq:
descseq sw:GAG_MLVF5[217:479] nucl_caps.fasta -name "Capsid protein p30, id=PRO_0000040898; from Gag polyprotein, AC=" -description ", id=GAG_MLVF5"
После этого я сделал запрос в BLAST по базе SwissProt с параметрами по умолчанию, кроме: expect threshold 10, длина слова 2, включён фильтр участков малой сложности. Среди результатов с E-value меньше 1 были только gag-полипротеины из других вирусов. Я выбрал 6 из них (идентификаторы выбранных полипротеинов можно посмотреть в проекте Jalview), добавил изолированную последовательность белка капсида и построил множественное выравнивание с помощью muscle. В Jalview я убрал из выравнивания участки, невыровненные с последовательностью белка капсида. Белки демонстрируют очень высокое сходство, многие продолжительные участки консервативны и идентичны у всех последовательностей (например 47-59, 153-162, 217-228). Видимо, эти белки гомологичны.