Выбранный ранее органзим - Clupea harengus (атлантическая сельдь).
Для сравнения был выбран класс Mammalia. Выбранный таксон является сестринским относительно филума Chordata
blastn: Хорошо использовать для поиска гомологов нуклеотидной последовательности. Особенно для неблизкородственных организмов. Например, если ищем гомологи некого гена для предсказания его потенциальной фукнции.
megablast: Быстроработающий алгоритм, в поиске выдаются последовательности с максимальной идентичностью. Полезен, например, при картировании генома при наличии аннотированного генома близкого родственника.
blastx: Транслирует исходную нуклеотидную последовательность в белковую и ищет гомологи в базе данных белковых последовательностей. Пример использования - если хотим посмотреть на аминокислотные различия в составе белка у близкородственных организмов. Blastn в таком случае не учитывает синонимичные замены не приводящие к смене аминокислоты.
tblastx: Транслирует исходную нуклеотидную последовательность в белковую и ищет гомологи в базе данных транслированных нуклеотидных последовательностей. Показан к применению, если необходимо найти гомологи белок-кодирующего гена среди организмов, у которых отсутсвтуют данные об их последовательности протеома. Blastn в таком случае опять же не учитывает синонимичные замены.
Индексация генома:
makeblastdb -in GCF_900700415.2_Ch_v2.0.2_genomic.fna -dbtype nucl
16S рРНК входит в состав малой субъединицы, 23S рРНК в состав большой субъединицы рибосомы у прокариот.
Функции 16S-субъединицы: вязывается с факторами инициации трансляции, каркасная функция, узнаёт и связывает последовательности Шайна-Дальгарно.
Функции 23S-субъединицы: каркасная функция, входит в пептидилтрансферазный центр на рибосоме.
Был выбран blastn так как используются некодирующие белок последовательности неродственных организмов:
blastn -task blastn -query 16s.fna -db 'GCF_900700415.2_Ch_v2.0.2_genomic.fna' -out 16s.out -outfmt 7 -evalue 0.01
blastn -task blastn -query 23s.fna -db 'GCF_900700415.2_Ch_v2.0.2_genomic.fna' -out 23s.out -outfmt 7 -evalue 0.01
Опция -evalue=0.05 для отброски совсем плохих находок. Опция -outfmt=7 для выдачи в виде таблицы
Скачать выдачу blastn для 16S и 23S
16S: 2 хромосомы (18, 9) и 1 unplaced genomic scaffold. Всего 3 находки
23S: 15 находок по хромосомам: 2, 19, 4(2 находки), 26(2 находки), 8 (2 находки), 5, 6, 10, 24, 18, 9, 17 хромосомы. Четыре находки в unplaced genomic scaffold
Как мы видим, обе рРНК имеют сходство с участками 18 и 9 хромосом. На 18 хромосме совпадения только с некодирующими (или неаннотированными) областями генома. На 9 хромосоме для 23S есть находка на позиции 30245997..30246031, которая соответсвует гену fat3a, предполагаемая функция которого - связывание ионов кальция и участие клеточной адгезии. Остальные находки на 9 и 18 хромосоме принадлежали к неаннотированным участкам.
Остальные находки для 23SНа 2 хромосоме ген epha3. Ген рецептора эфрина, участвует в развитии нервной системы. 19 хромосома - участок гена serpinf1, кодирующего белок из семейства серпинов, ингибитор пептидаз. 4 хромосома - ген plxna2. Этот ген кодирует члена семейства корецепторов семафоринов плексина-А, который оказывает отталкивающее воздействие на поиск путей аксонов во время развития нервной системы. 26 хромосома - ген LOC105897349 - интегрин alpha-M-like.
Все находки для 16S имеют длину выравнивания меньше 50 нуклеотидов. Для 23S находки имеют большую длину выраванивания - до 175 нуклеотидов. При этом нашлось две находки, расположенных на неаннотированном скаффолде NW_024880148.1 и второй хромосоме NC_045153.1. При этом они обе имеют идентичные параметры выравнивания: процент идетичности, e-value, попавший в выравнивание участок последовательности 23S рРНК тоже одинаковый. Возможно, скаффолд NW_024880148.1 на самом деле принадлежит второй хромосоме.
Итого, для 16S рРНК все находки имеют слишком малую длину выравнивания. Для 23S рРНК чуть больше, но все еще довольно небольшую. Процент идентичности для более длинных находок не превыщает 75, для коротких он конечно выше, но вряд ли мы может считать их значимыми, если длина выравнивания в этих случаях 30-40 нуклеотидов. Таким образом, аннотация найденных находок не совпадает с ожидаемой и вряд ли мы можем выделить действительно значимые находки, которые могут являться гомологами генов 16S и 23S рРНК. Действительно, при поиске в NCBI генов 18S и 28S rRNA у Clupea harengus, таких просто не находилось, вероятно они неаннотированы.