Выбор сборки

Я выбрала контиг с идентификатором NC_007118.7.
NC_007118.7:
Danio rerio strain Tuebingen chromosome 7
GRCz11 Primary Assembly
[38,084,698 - 38,088,153]
3,456 bp, positive strand
gene - cebra.

1
Рис. 1. Схема расположения генов в выборанном контиге.

Зелёным на фотографии отмечен сам ген (один, cebra), светло-зелёным - 5'- и 3'-нетранслируемые области, фиолетовым - соответствующая мРНК (одна). Красным выделена кодирующая последовательность (одна, CDS), длиной в 867 bp.
Fasta файл можно найти здесь.

Поиск BLAST

Для поиска BLAST был выбран класс Птиц (Aves, taxid:8782).

blastn
Длина слова - 11, expect treshhold (далее сохраняется везде) - 0.05, количество находок - 349/1000 (файл тут). Средний процент покрытия по всем находкам - 15%, значения e-value соответствуют ожидаемым (очень маленькие числа, что хорошо). Отмечу, что часть находок - также сборки организмов (птиц). Также много предсказанных структур.
Для чего используется: определение принадлежности организма к тому или иному таксону, сравнивание неблизкородственных организмов.

megablast
Длина слова - 28, количество находок - 100/1000 (файл тут). Среди находок - различные сборки организмов, отдельные хромосомы (в основном, различных птиц), однако большинство найденных записей - белок CCAAT (CEBPA).
Для чего используется: быстрый поиск среди схожих последовательностей; можно использовать, когда мы уверены, что последовательность найдётся в каком-то конкретном организме.

blastx
Длина слова - 5, количество находок - 821/1000 (файл тут). В отличие от находок blastn и megablast - предсказанных последовательностей единицы. Среди находок - также белок CCAAT (CEBPA), но есть и IHE44, белок, агрегирующий с образованием микротрубчатых структур (также он инфицируется в печени зараженных вирусом гепатита).
Для чего используется: определение кодирующих последовательносте/аннотация последовательностей; последовательность переводится из нуклеотидной в аминокислотную и поиск производится по белковой базе данных.

tblastx
Длина слова - 3. Я пробовала запустить программу со всевозможными комбинациями параметров, и, к сожалению, во всех случаях она выдавала ошибку (превышение лимита использования CPU).
Для чего используется: предсказание генов в последовательностях; ищем гомолога в геномах, в которых еще даже не предсказаны гены.

Поиск в геноме эукариота генов основных рибосомальных РНК по далекому гомологу

Последовательность генома Danio rerio была проиндексирована командой:

makeblastdb -in cebra.fna -dbtype nucl

О рРНК:
23S рРНК входит в каталитический пептидилтрансферазный центр на рибосоме, 16S рРНК необходима для правильной посадки 30S субчастицы рибосомы на мРНК - чтобы Р-сайт рибосомы размещался точно на инициирующем кодоне АУГ на мРНК. Также 16S рРНК овтечает для связывание с последовательностью Шайна-Дальгарно.

Так как поиск производится по нуклеотидным последовательностям, я выбрала blastn. Были использованы следующие команды:

blastn -task blastn -evalue 0.05 -query ecoli16.txt -db cebra.fna -out blast_rRNA16.fna -outfmt 7
blastn -task blastn -evalue 0.05 -query ecoli23.txt -db cebra.fna -out blast_rRNA23.txt -outfmt 7
*был выставлен порог e-value в 0.05, чтобы убрать случайные находки

В результате, поиск по 16S рРНК выдал 13, а по 23S рРНК - 76 находок blast:
Находки для 16S рРНК
Находки для 23s рРНК
*в файлах напротив каждой строчки написано, чем является находка - я вручную перепроверила каждую; если не написано ничего - это не гомлог/является ncRNA.

16S rRNA
Среди 13 находок - одна случайная (большой e-value), одна - рибосомальная РНК (5 хромосома, NC_007116.7, [824924-824966]). Все остальные - либо не принадлежали кодирующей части генома (lncRNA/ncRNA), либо входили в ген/mRNA.

23S rRNA
Половина (ровно) всех находок - случайные, у них очень большой e-value. Самая последняя находка попала в митохондриальный геном: это ген mt-rnr2 (NC_002333.2, [3027-3162]). Митохондриально кодируемая 16S РНК представляет собой митохондриальную большую субъединицу рибосомной РНК, которая у человека кодируется геном MT-RNR2. Таким образом, значимая находка одна (по 16S и 23S рРНК) - это можно назвать гомологией. Также, попался участок гена цинкового пальца (mRNA-gastrula zinc finger protein XlCGF57.1-like, NC_007115.7, [53400556-53400488]).