В данном задании было необходимо определить в неаннотированном геноме участки, которые могут являться возможными генами белков. Для этого с помощью следующей команды была получена локальная база данных, по которой далее будет осуществляться поиск с помощью программы tblastn:
makeblastdb -in X5.fasta -dbtype nuclПоиск по базе данных NCBI Taxonomy показал, что Amoeboaphelidium protococcarum относится к кладе Aphelida. У данной таксономической группы есть всего лишь две плохо аннотированные записи. Поэтому для поиска были выбраны хорошо аннотированные белки из Saccharomyces cerevisiae (является организмом, родственным Amoeboaphelidium protococcarum).
Является неотъемлемой частью цитоскелета, поэтому можно ожидать наличие в геноме соответствующего белка.
Запрос в Uniprot: taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" name:actin
Результат запроса: ACT_YEAST
Последовательность получена командой: seqret 'sw:P60010' actin.fasta
Получение полной информации о записи: entret 'sw:P60010' -outfile actin.txt
Запрос в tblastn: tblastn -query actin.fasta -db X5.fasta > actin_result.txt
В результате работы tblastn получается следующий результат. Программе удалось найти несколько находок с e-value равным 0.0, которые наверняка являются гомологами актина. Также можно предположить гомологию у следующих четырех находок с хорошим покрытием.
Рибосомы участвуют в трансляции белки, следовательно рибосомальные гены должны присутствовать в геноме исследуемого организма. Возьмем 40S рибосомный белок S2.
Запрос в Uniprot: taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" name:40s ribosomal protein
Результат запроса: RS2_YEAST
Последовательность получена командой: seqret 'sw:P25443' s2.fasta
Получение полной информации о записи: entret 'sw:P25443' -outfile s2.txt
Запрос в tblastn: tblastn -query s2.fasta -db X5.fasta > s2_result.txt
В результате работы tblastn получается следующий результат. Нетрудно увидеть две идентичные находки с хорошим покрытием, что может свидетельствовать о двух копиях одного гена в геноме. E-value равен 6e-89, что позволяет предположить гомологию. Находки выровнялись с исходным белком с хорошим покрытием.
Миктротрубочки выполняют важную структурную функцию во многих клеточных процессах, поэтому рассмотрим γ-цепь тубулина.
Запрос в Uniprot: taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" name:tubulin
Результат запроса: TBB_YEAST
Последовательность получена командой: seqret 'sw:P02557' tubulin.fasta
Получение полной информации о записи: entret 'sw:P02557' -outfile tubulin.txt
Запрос в tblastn: tblastn -query tubulin.fasta -db X5.fasta > tubulin_result.txt
В результате работы tblastn получается следующий результат. Наилучшее выравнивание характеризуется низким процентом идентичности (35%), а также плохим покрытием (в сравнении с находками в предыдущих запросах). Это не позволяет нам предположить гомологию ни одной из находок.