Требуется найти ген, кодирующий δ-субъединицу АТФ-синтазы у выбранного мною эукариота. Я выбрал Trypanosoma brucei brucei TREU927. Искал я этот ген в скачанной из NCBI референсной геномной сборке с аннотациями. Поиски были достаточно сильно затруднены тем, что в сборке соответствующий ген обозначался как кодирующий не δ-субъединицу, а ε-цепь.
Нужно найти гомологи δ-субъединицы АТФ-синтазы эукариота среди пауков(Araneae). Можно попробовать искать по нуклеотидной базе данных refseq_rna на прямую при помощи blastn или через псевдобелковую базу данных при помощи tblastx. Попробуем оба варианта.
Как и ожидалось, алгоритм ничего не нашёл. blastn не эффективен при поиске гомологов белков по их генам, поэтому выдаёт на порядок меньше результатов. А учитывая то, что выбранный мною организм принадлежит весьма древней ветви эукариот – Discoba, вряд ли могло быть много находок.
Как и ожидалось, tblastx был эффективнее чем blastn, ведь ищет по предполагаемым трансляциям рамок.
Требуется найти в геноме эукариота гены основных рибосомальных рнк по далёким гомологам – 16s_rRNA и 23s_rRNA у Ecoli.
Для начала нужно создать локадьную базу данных на основе последовательностей эукариота. Проиндексируем последовательности хромосом трипаносомы:
makeblastdb -in genome.fna -dbtype nucl -out genome_db/genome.fna
Теперь произведём поиск blastn по локальной базе данных. Я выбрал именно blastn так как нам нужно найти гомологи некодирующей рнк, а не белка. Для удобства запустим каждый алогоритм и без опции -outfmt 7.
blastn -task blastn -query rRNA_16s_ecoli.fasta -db genome_db/genome.fna -evalue 0.1 -out gene_blast/16s_blastn.fasta -outfmt 7
Алгоритм нашёл 9 выравниваний на 4-х хромосомах(1 на 7, 4 на 3 и 3 на 2). По координатам становится понятно, что один и тот же фрагмент 16s rRNA выранивается на разные части хромосом, так что гомологов 9.
blastn -task blastn -query rRNA_23s_ecoli.fasta -db genome_db/genome.fna -evalue 0.1 -out gene_blast/23s_blastn.fasta -outfmt 7
Выдало 43 находки на хромосомах 1(1 гом),2(3 гом),3(???),6(1 гом),7(1 гом),9(1 гом),10(1 гом),11(1 гом). Тут ситуация с гомологами не совсем ясна.
Меня заинтересовала третья хромосома, так как в ней находится много находок и неясное число гомологов. Я решил рессмотреть её карту в NCBI.
Я обнаружил тандемные повторы, объясняющие такое количество находок. Кроме того, 23s rRNA Ecoli оказалась гомологична одновременно альфа- и бета- rRNA большой субъединицы(жёлтым и зелёным). Также уже при изучении участка было обнаружено много других составляющих rRNA большой субъединицы(серым). rRNA малой субъединицы, гомологичная 16s rRNA Ecoli, обозначена синим. 5.8s rRNA обозначены красным.