Entrez Direct, BLAST+ и EMBOSS



1. Поиск гомологов белков в неаннотированном геноме

Для поиска белков в сборке генома Amoeboaphelidium protococcarum на её основе была создана база данных:

makeblastdb -in X5.fasta -dbtype nucl

Amoeboaphelidium protococcarum относится к кладе Aphelida. Наиболее близкие к ней крупные таксоны с аннотированными организмами – это Fungi и Microsporidia. Так как нужно было найти белки, имеющиеся у всех эукариот, то был выбран поиск по более удалённому таксону Fungi (эти белки консервативны, поэтому поиск по слишком близким таксонам менее показателен). Среди грибов был выбран хорошо изученный штамм Нейроспоры Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987), поиск в Uniprot осуществлялся следующей командой:

reviewed:yes AND organism:"Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) [367110]"

Из 875 находок были выбраны самые распространённые среди эукариот 3 белка: цитохром C, β-тубулин и фосфоглицерат-киназа. Их последовательности были извлечены командой ({AC} - AC в Uniprot):

seqret sw:{AC} -outseq {AC}.fasta

Ссылки на полученные последовательности: цитохром C, β-тубулин и фосфоглицерат-киназа.

Для поиска белков был использован tblastn, так как в базе данных требовалось найти последовательности, кодирующие белки, похожие на белок в запросе. Из-за того, что без строгого ограничения на e-value в результатах оказывались недостоверные находки (с e-value > 1), то на него был установлен порог 0.5:

tblastn -db X5.fasta -evalue 0.05 -query {AC}.fasta -out {AC}.txt

Ссылки на выдачу tblastn: цитохром C, β-тубулин и фосфоглицерат-киназа.

С последовательностями цитохрома C, β-тубулина и фосфоглицерат-киназы N. crassa соответственно выровнялись 2, 6 и 2 последовательности из сборки генома A. protococcarum. Все они практически полностью последовательности в запросе и имеют достаточный для предположения о гомологии процент идентичности (для белков >25%) и e-value. Поэтому скорее всего для всех трёх белков у A. protococcarum есть гомологи. Несколько достоверных находок для одного запроса, вероятно, обусловлены наличием изоформ у исследуемых белков или паралогов (например, на последовательность цитохрома C N. crassa мог выровняться цитохром C1 A. protococcarum).



2. Упражнения по EMBOSS

Ссылка на копию файла с отчётом в public_html: emboss.txt.



3. Работа с Entrez Direct

Ссылка на копию файла с отчётом в public_html: edirect.sh.