Для поиска гомологов был выбран родственный данному организму таксон Microsporidia. Для этого в поиск Uniprot был введен следующий запрос:
taxonomy:"Microsporidia [6029]" OR existence:"Evidence at protein level [1]" OR existence:"Evidence at transcript level [2]" AND reviewed:yes
Среди найденных белков я выбрал: FEN1 организма Enterocytozoon bieneusi (strain H348) - (ID: FEN1_ENTBH), шаперон HSP90 Encephalitozoon cuniculi (strain GB-M1) - (ID: HSP82_ENCCU), и рибосомальный белок RPS18 40S-субъединицы рибосомы Encephalitozoon cuniculi - (ID: RS18_ENCCU). Данные белки встречаются у всех эукариот, что обусловленно их важными функциями в клетке. Для получения последовательностей белков я воспользовался командой seqret:
seqret sw:{ID} -outseq {name}.fasta
Затем я создал базу данных из сборки генома:
makeblastdb -in X5.fasta -dbtype nucl
Далее нужно сделать запросы tblastn:
tblastn -query {name}.fasta -db X5.fasta -out {name}.txt -evalue 0.01
FEN1 - 4 скэффолда, E-value: 8e-77, 2e-76, 1e-13, 2e-11; Identity: 42%, 42%, 36%, 36% соответственно. фрагменты скэффолдов 162 и 85 (первые два) очень похожи друг на друга, вероятно, результат дупликации.
HSP90 - 4 результата, E-value: 2e-90, 5e-90, 5e-53, 5e-53; Identity от 29% до 48% - на один результат приходится 2-3 выравнивания (разные участки скэффолда выравниваются с разными участками последовательности HSP90). Замечу, что первый результат - не скэффолд, а unplaced-64.
RPS18 - 2 скэффолда, по последовательностям их участки, участвующие в выравнивании, идентичны - вероятно, результат дупликации. E-value: 2e-27, 3e-27; Identity: 44%, 44%.
Гомологи всех выбранных белков были обнаружены в сборке генома данного организма.