Нуклеотидные банки данных

Выбор сборки генома

Мы выбрали птицу, которая в пикирующем полёте развивает скорость более 300 км/ч — самую большую скорость среди всех живых существ.
Это — сапсан (Falco peregrinus)
Этимология слова «сапсан» не полностью ясна, но самая правдоподобная версия предполагает его тюркское происхождение. Наиболее вероятным источником является уйгурское слово čapsan (быстрый, скорый, проворный), которое в русском языке могло трансформироваться в «сапсан» из-за ассимиляции.
Обнаружив добычу, он приподнимается над жертвой и стремительно пикирует вниз, по касательной ударяя её сложенными и прижатыми к туловищу лапами. В таком пикирующем полёте он достигает максимальной скорости. Удар когтями задних пальцев бывает настолько сильным, что даже у достаточно крупной дичи может отлететь голова. Однако в горизонтильном полёте сапсан уступает в скорости стрижу.

sapsan picture
Рис. 1. Сапсан

Всего поиск по названию вида (Falco peregrinus) выдал 12 геномов. Мы выбрали bFalPer1.pri , отмеченный как референсный

Таблица 1
Параметр Информация
Идентификатор GenBank GCF_023634155.1
Идентификатор RefSeq GCA_023634155.1
Уровень сборки генома haploid (principal haplotype of diploid)
Chromosome
Общий размер генома 1.3 Gb
Число фрагментов генома в сборке 23 хромосомы (гаплоидный набор, 46 для диплоидного),
124 скэффолда,
356 контига
Параметры N50 и L50 для всех элементов Scaffold N50 93.7 Mb
Scaffold L50 6
Contig N50 15.7 Mb
Contig L50 24

Мы получили следующие файлы: GCF_023634155.1_bFalPer1.pri_genomic.fna - Нуклеотидные последовательности генома fasta
genomic.gbff - Последовательности генома с аннотацией gbff
protein.faa - Последовательности белков fasta

Миоглобин

Поиск по базе NCBI - Nucleotidese по запросу myoglobin[All Fields] и фильтрами по типу молекул и базам данных выдал 14303 результатов.
myoglobin[Protein Name] — 6474 результатов. Из них 5 084 из GenBank и 1 390 из RefSeq.
myoglobin[Title] — 12772. Из них 11 351 из GenBank и 1 099 из RefSeq. Кажется, это наиболее правильный запрос.

genomic DNA/RNA(10 238)
mRNA(2 478)

Про человеческий миоглобин:

myoglobin[Title] AND "homo sapiens"[Organism] — 131 запись (genomic DNA/RNA(14), mRNA(114)). Мы искали по Nucleotides и в выдаче было 51 нуклеотидная последовательность и 80 EST (Expressed sequence tag) — короткая последовательность кДНК, которые комплиментарны сплайсированным мРНК.

Таблица 2
genomic DNA/RNA mRNA
GenBank 10 82 94
RefSeq 1 9 10
14 114

Не все записи содержат информацию, касающуюся именно миоглобина. Например, восьмым в выдаче является геном Золотистого суслика, который, очевидно, содержит и ген миоглобина в том числе.

ENA

В ENA по запросу tax_tree(9606) AND description="myoglobin" AND mol_type="mrna" среди Nucleotide sequences — 105 результатов.

tax_tree(9606) AND description="myoglobin" AND mol_type="genomic dna" — 13 результатов.

DDBJ

Мы искали по базе ARSA

Definition:(myoglobin) AND MolecularType:(mRNA) AND Organism:(Homo AND sapiens) — 105 результатов. Выдача согласуется с ENA.

Definition:(myoglobin) AND MolecularType:(DNA OR RNA) AND Organism:(Homo AND sapiens) — 13 результатов, тоже согласуется с ENA. Ниаких РНК DDBJ не нашёл, все 13 последовательноестей ДНКовые. Можно сказать, что этот факт верифицирует выдачу ENA.

Геном митохондрии

Таблица 3
ACCESSION Тип органеллы Кол-во CDS Кол-во генов рРНК Кол-во генов тРНК Кол-во псевдогенов
NC_000878 Митохондрия 13 2 22 1 (misc_feature : 14929..16438 )