Целью данного задания было найти участки, которые потенциально могут являться генами белков, в неаннотированной последовательности. Для этого была создана локальная база данных genome.fasta, полученная из данной последовательности генома, по которой исуществлялся поиск программой tblastn (поиск гомолога елка в формальной трансляции нуклеотидного банка). Команда для получения базы данных:
makeblastdb -in genome.fasta -dbtype nucl
Для поиска белков необходимо выбрать достаточно близкий к рассматриваемому организм, белки которого были бы аннотированы. Результат поиска по базе данных NCBI Taxonomy показал, что Amoeboaphelidium protococcarum относится к кладе Aphelida и классу Aphelidea. Поиск в Uniprot по этим таксонам показал достаточно мало результатов, а особенности аннотированных. Тогда было решено учесть фразу из задания, что данный организм считается примитивны родственником грибов, и искать белки, принадлежащиe Fungi. Наиболее хорошо исследованный организм из этой группы - Saccharomyces cerevisiae, для него существует много аннотированных белков, они в первую очередь и принимались во внимание.
Первый выбранный белок, наличие которого в геноме было бы ожидаемо, - цитохром-с-оксидаза (COX1_YEAST), один из ферментов дыхательной цепи. Был сделан следующий запрос:
taxonomy:"Fungi [4751]" name:cytochrome-c-oxidase
последовательность получена командой:
seqret 'sw:P00401' cox1.fasta
полная информация о записи может быть получена с помощью команды:
entret 'sw:P00401' -outfile cox1.entret
Запрос в BLAST:
tblastn -query cox1.fasta -db genome.fasta > cox1_result.txt
На выдаче последней команды получаем следующий результат. В данном случае есть смысл говорить об одной находке, если судить по e-value (1е-70). Процент совпадения здесь не очень высокий (58%), но для сравнения именно белковых последовательностей этого достаточно, чтобы предполагать гомологию. Если посмотреть на выравнивание, совпадений достаточно много, но при этом покрытие менее 50%, то есть совпадает только часть последовательности, но с достаточно высоким процентом. Вероятно, может идти речь о гомологии доменов, но является ли гомологом белок, сказать сложно.
Другой рассмотренный белок - кальций-транспортирующая АТФаза (ATC1_YEAST), он осуществляет активный перенос кальция через мембрану. Ионы кальция в свою очередь играют большую роль в биологических процессах. Запрос:
taxonomy:"Fungi [4751]" name:atpase
Следующая последовательность получена командой:
seqret 'sw:P13586' atc1.fasta
полная информация о записи может быть получена с помощью команды:
entret 'sw:P13586' -outfile atc1.entret
Запрос в BLAST:
tblastn -query atc1.fasta -db genome.fasta > atc1_result.txt
Был получен такой результат. Здесь намного больше последовательностей, которые потенциально могут быть гомологичными: для первых двух e-value равно машинному нулю, для следующих четырех - ничтожно мало. Рассматривая две находки с e-value = 0.0 видим, что, хотя процент идентичности всего около 48-49%, что опять же в случае белковой последовательности достаточно для предположения гомологии, покрытие практически полное, сходные участки есть по всей длине последовательности запроса, значит, можно предположить, что кальций-транспортирующая АТФаза в рассмариваемом геноме присутствует.
Ещё один белок, на наличие которого можно проверить случайный геном, - пируват-киназа (KPYK1_YEAST), один из ферментов гликолиза, катализирующий реакцию, в ходе которой образуется АТФ. Запрос:
taxonomy:"Fungi [4751]" name:pyruvate kinase
Последовательность получена командой:
seqret 'sw:P00549' kpyk1.fasta
полная информация о записи может быть получена с помощью команды:
entret 'sw:P00549' -outfile kpyk1.entret
Запрос в BLAST:
tblastn -query kpyk1.fasta -db genome.fasta > kpyk_result.txt
Имеем следующий результат: e-value ничтожно мало для двух первых находок, при этом процент идентичности для них составляет 54% и покрытие практически полное. Обе эти находки можно считать претендующими на то, чтобы закодированный в них белок был гомологичен искомому.