Из первой хромосомы референсной сборки генома Danio rerio(идентификатор: GCA_000002035.4) был вырезан фрагмент 207950-215419.
В данный фрагмент попадает 1 ген - dcun1d2b(DCN1), в нем - 6 CDS.
Использование различных алгоритмов blast
Целевым таксоном выбрала подкласс Хрящевые рыбы(cartilaginous fishes в blast). Во всех случаях blast запускался со стандартными параметрами.
В выдаче более 100 последовательностей, но выравнивались только начало и конец найденных
(скорей всего - промоторные и терминаторные последовательности). Среди попавших последовательностей нет DCN1.
В выдаче также последовательности разного происхождения, но появляется выровненный участок в середине.
Почти все последовательности среди верхних 100, попавших в выдачу - DCN1. Blast предполагает наличие доменных архитектур.
Запустить не получилось - последовательность длинная, при транслированнии последовательностей уже 6, выравнивается с 6-ю транслированными нуклеотидными базами - сервер не запускает алгоритм(CPU usage limit was exceeded). Изменение длины слова и ранга таксона не дает результата(при относительно мелких таксонах выдача пустая)
Файл с геномом превышает квоту на диске, поэтому для дальнейшей работы выбран геном Saccharomyces cerevisiae(GCF_000146045.2, референсная сборка)
gzip -d GCA_000002035.4_GRCz11_genomic.fna.gz
gzip: GCA_000002035.4_GRCz11_genomic.fna: Disk quota exceeded
Для поиска использовался алгоритм blastn - рРНК не транслируются, поэтому эволюция последовательностей не зависит от соответствующего пептида и blastx и tblastx применять бессмысленно.
makeblastdb -in GCF_000146045.2_R64_genomic.fna -dbtype nucl
blastn -task blastn -query 16s_rRNA.fna -db GCF_000146045.2_R64_genomic.fna -out 16s_rRNA_blastn.txt -outfmt 7 -evalue 0.05
blastn -task blastn -query 23s_rRNA.fna -db GCF_000146045.2_R64_genomic.fna -out 23s_rRNA_blastn.txt -outfmt 7 -evalue 0.05
Находки есть и на аутосомах, и в митохондриальной ДНК(тк и там, и там закодированы рРНК). 16s рРНК выравнивается на 18s, 23s - на 35s.