Нуклеотидные банки данных

Выбор сборки генома эукариотического организма

Организм Saccharomyces cerevisiae S288C

На сайте NCBI Datasets было найденно 2 сборки и выбрана референсная Genome assembly R64

Xарактеристики выбранной сборки

Идентификатор GenBank GCA_000146045.2
Идентификатор RefSeq GCF_000146045.2
Уровень сборки геномa Chromosome
Общий размер генома (п.н.) 12.1 Mb
Число фрагментов генома в сборке 17
Scaffold N50, Contig N50 924.4 kb, 924.4 kb
Scaffold L50, Contig L50 6, 6

Число фрагментов генома в сборке было получено командой grep ">" GCF_000146045.2_R64_genomic.fna | wc -l

Параметр N50 - это длина контига(скэффолда), для которого половина всех нуклеотидов сборки содержится в контигах(скэффолдах) такой же и большей длины. Параметр L50 - это наименьшее из возможных число контигов(скэффолдов), в которых содержится не меньше половины всех нуклеотидов сборки.

Знакомство с поисковыми системами ENA и NCBI

Выбранный белок - миозин (Myosin)

- all Homo sapiens
genomic DNA 15859 176
mRNA 184866 6120
RefSeq 164401 1078
GenBank 41032 5341
- all Homo sapiens
ENA genomic DNA 16350 217
mRNA 20179 5437