Для дальнейшей работы было необходимо выбрать любой эукариотический организм и найти подходящую сборку его генома. Для поиска организма я ввела в поисковую строку название таксона Viridiplantae (высшие растения), а также задала следующие параметры в фильтре: наличие аннотированного генома, уровень сборки — хромосомный или полный. Я получила 254 генома, и среди них выбрала растение, которое я не знаю и которое выглядит красиво. В итоге, мой выбор пал на Bauhinia variegata — симпатичное цветковое растение из семейства мотыльковых. Для неё в банке есть единственная сборка, которая и является референсной (отобранная вручную качественная сборка генома, которую NCBI определили в качестве стандарта, с которым сравниваются другие данные).
В сборке 14 хромосом, данные о настоящем количестве хромосом найти не удалось. Уровень сборки генома — хромосомный (есть последовательность одной или нескольких хромосом. Это может быть полностью секвенированная хромосома без гэпов или хромосома, содержащая скэффолды или контиги с гэпами между ними. Там также могут быть неразмещённые скэффолды).
Фотография цветочка :З
Оказалось, что это растение является священным видом в буддизме и изображено на эмблеме Гонконга. Оно применяется в кулинарии и в традиционной медицине. Это растение содержит множество необычных вторичных метаболитов, и большая часть исследований с его участием сосредоточено на их действии на организм. Что интересно, достаточно недавно в ней нашлись метаболиты, являющиеся потенциальными ингибиторами главной протеазы SARS-CoV-2 (ссылка)
Таблица 1. Характеристики выбранной сборки
Идентификатор GenBank | GCA_022379115.2 |
Идентификатор RefSeq | Отсутствует |
Общий размер генома | 326.4 Mb |
Количество контигов | 586 | N50 контигов | 4.2 Mb |
L50 контигов | 24 |
Количество скэффолдов | 410 |
N50 скэффолдов | 22.1 Mb |
L50 скэффолдов | 7 |
L50: Число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки
N50 - Длина контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины
Из GenBank я скачала последовательность нуклеотидов и белков, а также последовательности генома с аннотацией