Практикум 7. Нуклеотидные банки данных

1. Выбор качественной сборки генома эукариотического организма

Ввиду своей красоты, для анализа был выбран карлик небесный, крылатый колибри.

По запросу Trochilidae на NCBI Datasets было найдено несколько референсных сборок. Была выбрана первая для калипты Анны — bCalAnn1_v1.p, уровень сборки — Chromosome.

2. Характеристики выбранной сборки

Параметр Значение
Идентификатор GenBankGCA_003957555.2
Идентификатор RefSeq GCF_003957555.1
Уровень сборки геномаChromosome
Общий размер генома (п.н.)1 059 687 259
Число фрагментов (хромосом) генома в сборке33 (гаплоидный набор)
Число скэффолдов159
N50 скэффолдов74 081 004
L50 скэффолдов4
Число контигов584
N50 контигов14 522 327
L50 контигов21

Пояснение N50 и L50: N50 — такая длина, что сумма длин всех фрагментов (контигов или скэффолдов), длина которых ≥ N50, составляет не менее 50% от общей длины сборки. L50 — минимальное число самых длинных фрагментов, суммарная длина которых составляет ≥50% от общей длины.

3. Скачанные файлы

  • GCF_003957555.1_bCalAnn1_v1.p_genomic.fna.gz — нуклеотидные последовательности генома в формате FASTA.
  • GCF_003957555.1_bCalAnn1_v1.p_protein.faa.gz — предсказанные белковые последовательности в формате FASTA.
  • GCF_014858855.1_ASM1485885v1_genomic.gbff.gz — аннотированный геном в формате GenBank flat file.

Файлы доступны для скачивания с NCBI FTP

4. Знакомство с поисковыми системами NCBI и ENA

В качестве примера выбран белок трипсин — пищеварительный фермент, вырабатываемый поджелудочной железой, расщепляющий белки до пептидов.

Поиск в NCBI

Базовый запрос trypsin[Title] даёт 22 169 записей, из них:

  • genomic DNA/RNA: 1 478
  • mRNA: 20 231
ЗапросРезультат
trypsin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP])22 169
... AND refseq[filter]15 274
... AND ddbj_embl_genbank[filter]6 883
trypsin[Title] AND Human[Organism]331 (mRNA:304, genomic:14, transcribed:8)
... AND Human[Organism] AND ddbj_embl_genbank[filter]280 (GenBank)
... AND Human[Organism] AND refseq[filter]51 (RefSeq)
... AND Human[Organism] AND ddbj[filter]15 (DDBJ)
trypsin[Title] NOT inhibitor[Title]17 188 (≈5 тыс. записей с ингибиторами)

Примечание: Большое количество записей RefSeq связано с включением предсказанных последовательностей (префиксы XM_, XP_) для многих организмов.

Поиск в ENA

ЗапросРезультат
description="trypsin" AND mol_type="mrna"5 651
scientific_name="Homo sapiens" AND description="trypsin" AND mol_type="genomic dna"25

ENA показывает меньшее количество записей, чем NCBI, что отражает различия в охвате и методах индексации.