Entrez Direct, BLAST+, EMBOSS


Задание 1. Поиск гомологов белков в неаннотированном геноме

В данном задании используется неаннотированная сборка генома Amoeboaphelidium protococcarum.

Для поиска гомологов я выбрала родственный таксон Microsporidia и довольно изученный организм Encephalitozoon cuniculi из этого таксона.

С помощью поискового запроса taxonomy:"encephalitozoon cuniculi" AND reviewed:yes в Uniprot я нашла три следующих белка:
Гистон H2B HTB1 - один из коровых гистонов, образующих нуклеосому
Субъединица РНК-полимеразы II RPB9 - катализирует транскрипцию РНК c ДНК
Циклин-зависимая киназа I CDC28 - играет ключевую роль в клеточном цикла эукариот, необходим для входа в S-фазу.


Последовательности для BLAST были получены следующим образом:
seqret sw:"H2B_ENCCU" -outseq h2b.fasta
seqret sw:"RPB9_ENCCU" -outseq RNApoly.fasta
seqret sw:"CDK1_ENCCU" -outseq cyclin.fasta


Далее для работы с BLAST+ была создана локальная база данных из сборки:
makeblastdb -in X5.fasta -dbtype nucl


Запросы к полученной базе данных осуществлялись с помощью tblastn следующими командами:
tblastn -query h2b.fasta -db X5.fasta -out h2b.txt
tblastn -query RNApoly.fasta -db X5.fasta -out RNApoly.txt
tblastn -query cyclin.fasta -db X5.fasta -out cyclin.txt



Результаты

Гистон H2B HTB1 - совпадения не найдены, скорее всего у Amoeboaphelidium protococcarum нет гомологичного белка.

Субъединица РНК-полимеразы II RPB9 - показаны 2 находки с идентичностью 37% и 36%, E-value 4e-16 и 4e-15 соответственно. 359 и 463 скэффолды частично покрывают нуклеотидную последовательность, кодирующую выбранный белок. Возможно оба скэффолда входят в ген, кодирующий гомологичный белок, либо они входят в два разных гена, кодирующих паралоги белка.

Циклин-зависимая киназа I CDC28 - показаны 74 находки, 7 из них имеют e-value < 0.043. Скэффолд 22 имеет 54% идентичности (довольно высокий для белков), много совпадающих нуклеотидов, мало гэпов (2%) и хорошее покрытие, возможно этот скэффолд кодирует гомолог киназы.