Entrez Direct, BLAST+, EMBOSS

Поиск гомологов белков в неаннотированном геноме

В данном задании было необходимо определить в неаннотированном геноме участки, которые могут являться возможными генами белков. Для этого с помощью следующей команды была получена локальная база данных, по которой далее будет осуществляться поиск с помощью программы tblastn:

makeblastdb -in X5.fasta -dbtype nucl

Поиск по базе данных NCBI Taxonomy показал, что Amoeboaphelidium protococcarum относится к кладе Aphelida. У данной таксономической группы есть всего лишь две плохо аннотированные записи. Поэтому для поиска были выбраны хорошо аннотированные белки из Saccharomyces cerevisiae (является организмом, родственным Amoeboaphelidium protococcarum).

Актин

Является неотъемлемой частью цитоскелета, поэтому можно ожидать наличие в геноме соответствующего белка.

Запрос в Uniprot: taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" name:actin

Результат запроса: ACT_YEAST

Последовательность получена командой: seqret 'sw:P60010' actin.fasta

Получение полной информации о записи: entret 'sw:P60010' -outfile actin.txt

Запрос в tblastn: tblastn -query actin.fasta -db X5.fasta > actin_result.txt

В результате работы tblastn получается следующий результат. Программе удалось найти несколько находок с e-value равным 0.0, которые наверняка являются гомологами актина. Также можно предположить гомологию у следующих четырех находок с хорошим покрытием.

40S рибосомный белок S2

Рибосомы участвуют в трансляции белки, следовательно рибосомальные гены должны присутствовать в геноме исследуемого организма. Возьмем 40S рибосомный белок S2.

Запрос в Uniprot: taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" name:40s ribosomal protein

Результат запроса: RS2_YEAST

Последовательность получена командой: seqret 'sw:P25443' s2.fasta

Получение полной информации о записи: entret 'sw:P25443' -outfile s2.txt

Запрос в tblastn: tblastn -query s2.fasta -db X5.fasta > s2_result.txt

В результате работы tblastn получается следующий результат. Нетрудно увидеть две идентичные находки с хорошим покрытием, что может свидетельствовать о двух копиях одного гена в геноме. E-value равен 6e-89, что позволяет предположить гомологию. Находки выровнялись с исходным белком с хорошим покрытием.

γ-цепь тубулина

Миктротрубочки выполняют важную структурную функцию во многих клеточных процессах, поэтому рассмотрим γ-цепь тубулина.

Запрос в Uniprot: taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" name:tubulin

Результат запроса: TBB_YEAST

Последовательность получена командой: seqret 'sw:P02557' tubulin.fasta

Получение полной информации о записи: entret 'sw:P02557' -outfile tubulin.txt

Запрос в tblastn: tblastn -query tubulin.fasta -db X5.fasta > tubulin_result.txt

В результате работы tblastn получается следующий результат. Наилучшее выравнивание характеризуется низким процентом идентичности (35%), а также плохим покрытием (в сравнении с находками в предыдущих запросах). Это не позволяет нам предположить гомологию ни одной из находок.