Учебный сайтик
Кирилла Прокаповича

Выбор эукариотического организма

Для выполнения задания я выбрал синего кита (англ. blue whale, лат. Balaenoptera musculus). В NCBI Datasets нашлась референсная сборка генома, которая аннотированные гены и имеет качество "Chromosome".

Таблица 1. Параметры сборки генома синего кита
Параметр Значение
GenBank Accession GCA_009873245.3
RefSeq Accession GCF_009873245.2 (sequences differ from GenBank assembly)
Уровень сборки Chromosome
Размер генома 2.4 Gb
Количество контigов 972
Scaffold N50 110.3 Mb
Scaffold L50 9
Contig N50 6.3 Mb
Contig L50 103

Контиг - непрерывная последовательность нуклеотидов ДНК, собранная из ридингов.
Скаффолд - последовательность, состоящая из нескольких сшитых контигов, между которыми стоят N-нуклеотиды.

N50 Contig(Scaffold) - такая длина контига(скаффолда), в которой содержится 50% всех нуклеотидов сборки
L50 Contig(Scaffold) - такое количество контигов(скаффолдов), в которой содержится 50% всех нуклеотидов сборки

Инсулин в NCBI и ENA

Я ввел insulin[Title] и выдало 45020 записей, 4129 из которых по ДНК, 36529 - по мРНК, 12747 записей принадлежит GenBank, 32270 - RefSeq. Затем я ввел (insulin[Title]) AND "homo sapiens"[Organism], по такому запросу выдало 5609 записей: 1472 по ДНК, 4093 по мРНК, 5355 из GenBank, 254 из RefSeq.

В ENA по запросу tax_eq(9606) AND description="insulin" выдало 9341 записей: 157 по ДНК(tax_eq(9606) AND description="insulin" AND mol_type="genomic dna" - запрос), 7185 по мРНК (tax_eq(9606) AND description="insulin" AND mol_type="mrna" - запрос)