практикум №7

NCBI Datasets

Нуклеотидные банки данных


1. Выбор сборки генома.

Выбранный организм - обыкновенный (или европейский) ёж Erinaceus europaeus (common hedgehog).

Обыкновенный ёж населяет самые разнообразные места обитания. Предпочитает опушки, перелески, небольшие поляны, поймы рек. Обитает в том числе рядом с человеком, нередко его можно найти в садах и парках. Ведёт в основном ночной образ жизни. У него неуверенная походка, он часто останавливается, чтобы понюхать воздух.

ёж
Европейский ёж, поедающий тушку рыбы. Сфотографирован в Алтайском крае. [1]
Рис. 2
Рис. 2. Идиограмма подвида Erinaceus europaeus roumanicus, демонстрирующая структурные особенности хромосом.[2]

В кариотипе обыкновенного ежа насчитывается 48 хромосом в диплоидном наборе (рис.2) [2], что соответсвует 24 (23 + Х) хромосомам в рассматриваемой сборке гаплоидного генома. По запросу Erinaceus europaeus (European hedgehog) было найдено четыре сборки генома, из которых была выбрана для рассмотрения mEriEur2.1 по следующим требованиям:

  • Имеет аннотированные гены в GenBank и RefSeq;
  • Имеет уровень сборки Chromosome, то есть полученные последовательности псевдомолекул хромосом, которые могут содержать гэпы (последовательности из N) между скэффолдами;
  • Имеет статус reference.

2. Характеристики выбранной сборки.

Таблица 1. Характеристики гаплоидной геномной сборки mEriEur2.1.
ID GenBank GCA_950295315.1
ID RefSeq GCF_950295315.1
Общий размер генома (п.н.) 2 720 683 831
Число фрагментов (хромосом) генома в сборке 24 (гаплоидный набор)
Число скэффолдов 1174
N50 скэффолдов 126 757 761
L50 скэффолдов 9
Число контигов 4934
N50 контигов 999 919
L50 контигов 818

N50 контигов: длина контига, для которого 50% всех нуклеотидов сборки содежится в контигах такой и большей длины. L50 контигов: наименьшее число контигов, в которых содержится 50% всех нуклеотидов сборки. Аналогично для скэффолдов. Также в аннотации указано, что данная сборка содержит 1072 нелокализованных скэффолдов.

Характеристика рассматриваемой сборки. Сочетание таких характеристик, как хромосомный уровень сборки, подразумевающий возможное наличие гэпов между скэффолдами, а также, вероятно вытекающее из предыдущего, несовпадение контигов и скэффолдов с целыми хромосомами (табл.1), не позволяют утверждать, что данная сборка достоверно отражает биологию организма. Однако на уровне псевдомолекул хромосом может быть полезной, поскольку количество хромосом совпадает с указанным в литературных данных [2].

3. Сведения о сборке.

Из базы данных RefSeq были скачаны необходимые файлы:

  1. protein.faa - последовательности белков в формате FASTA
  2. genomic.fna - последовательности ДНК генома в формате FASTA
  3. genomic.gbff - аннотированный геном

Источники:

  1. Источник фото.
  2. GEISLER, M., GROPP, A. Chromosome Polymorphism in the European Hedgehog Erinaceus europaeus (Insectivora). Nature 214, 396–397 (1967). https://doi.org/10.1038/214396a0.