Нуклеотидный локальный BLAST

Поиск гомологов белков в неаннотированном геноме

tree
Рис. 1. Филогенетическое древо, демонстрирующее близость выбранного таксона к Amoeboaphelidium protococcarum (ссылка на фото)
Для поиска последовательностей белков был выбран близкородственный таксон Microsporidia.

Текст запроса:
	taxonomy:"Microsporidia [6029]" OR existence:"Evidence at protein level [1]" OR existence:"Evidence at transcript level [2]" AND reviewed:yes


Для запросов были выбранные следующие белки из организма Encephalitozoon cuniculi (strain GB-M1):
  • PYK1 - пируваткиназа, белок, участвующий в последней стадии гликолиза - переносе фосфатной группы с фосфоенолпирувата на ADP (KPYK_ENCCU).
  • ECU04_0750 - фермент, присоединяющий серин к соответствующей tRNA (SYS_ENCCU).
  • TUB2 - бета-цепь тубулина - белка, входящего в состав микротрубочек (TBB_ENCCU).
  • Для получения последовательностей белков была исполнена следующая команда (в кавычках protein ID - ID, приведенный выше для каждого белка; protein key - название белка без уточнения организма):

    seqret sw:"protein ID" -outseq protein key.fasta

    Далее была создана база данных из сборки генома:

    makeblastdb -in X5.fasta -dbtype nucl

    Следующий шаг - осуществление запросов с помощью tblastn:

    tblastn -query protein key.fasta -db X5.fasta -out protein key.txt -evalue 0.01 

    Результаты
  • PYK1 - 2 результата с E-value 4e-80 и 1e-79, Identity - 37% в обоих случаях. Найденные скэффолды покрывают два идентичных участка в разных частях генома.
  • ECU04_0750 - 2 результата с E-value 3e-108 и 1e-107, Identity - 46% в обоих случаях. Аналогично, скэффолды покрывают два идентичных участка в разных частях генома Amoeboaphelidium protococcarum.
  • TUB2 - 3 скэффолда с E-value 0.0, 2е-106, 3е-47, Identity - 83%, 41%, 28%. Так же найдено 2 "unplaced"-результата с E-value 0.0, 2e-106 и Identity 78% и 40%.

  • Вывод
    Все выбранные для поиска белки присутствуют в неаннотированном геноме, также высокий процент Identity в случае тубулина позволяет говорить о высокой консервативности белка.
    Также было исследовано наличие белка H2B в геноме Amoeboaphelidium protococcarum с разными порогами e-value. Ни в одном из случаев белок не был найден. Это говорит либо о плохом качестве сборки (т.к. H2B является гистоном и играет очень важную роль в компактизации ДНК и регуляции транскрипции), либо о его отсутствии в геноме (возможно, организм использует какой-либо альтернативный вариант гистона H2B). Так или иначе, этот вопрос требует дальнейший исследований.