Для поиска последовательностей белков был выбран близкородственный таксон Microsporidia.
Текст запроса:
taxonomy:"Microsporidia [6029]" OR existence:"Evidence at protein level [1]" OR existence:"Evidence at transcript level [2]" AND reviewed:yes
Для запросов были выбранные следующие белки из организма Encephalitozoon cuniculi (strain GB-M1):
PYK1 - пируваткиназа, белок, участвующий в последней стадии гликолиза - переносе фосфатной группы с фосфоенолпирувата на ADP (KPYK_ENCCU).
ECU04_0750 - фермент, присоединяющий серин к соответствующей tRNA (SYS_ENCCU).
TUB2 - бета-цепь тубулина - белка, входящего в состав микротрубочек (TBB_ENCCU).
Для получения последовательностей белков была исполнена следующая команда (в кавычках protein ID - ID, приведенный выше для каждого белка; protein key - название белка без уточнения организма):
seqret sw:"protein ID" -outseq protein key.fasta
Далее была создана база данных из сборки генома:
makeblastdb -in X5.fasta -dbtype nucl
Следующий шаг - осуществление запросов с помощью tblastn:
tblastn -query protein key.fasta -db X5.fasta -out protein key.txt -evalue 0.01
Результаты
PYK1 - 2 результата с E-value 4e-80 и 1e-79, Identity - 37% в обоих случаях. Найденные скэффолды покрывают два идентичных участка в разных частях генома.
ECU04_0750 - 2 результата с E-value 3e-108 и 1e-107, Identity - 46% в обоих случаях. Аналогично, скэффолды покрывают два идентичных участка в разных частях генома Amoeboaphelidium protococcarum.
TUB2 - 3 скэффолда с E-value 0.0, 2е-106, 3е-47, Identity - 83%, 41%, 28%. Так же найдено 2 "unplaced"-результата с E-value 0.0, 2e-106 и Identity 78% и 40%.
Вывод
Все выбранные для поиска белки присутствуют в неаннотированном геноме, также высокий процент Identity в случае тубулина позволяет говорить о высокой консервативности белка.
Также было исследовано наличие белка H2B в геноме Amoeboaphelidium protococcarum с разными порогами e-value. Ни в одном из случаев белок не был найден. Это говорит либо о плохом качестве сборки (т.к. H2B является гистоном и играет очень важную роль в компактизации ДНК и регуляции транскрипции), либо о его отсутствии в геноме (возможно, организм использует какой-либо альтернативный вариант гистона H2B). Так или иначе, этот вопрос требует дальнейший исследований.