Практикум 7. Нуклеотидные банки данных
1. Выбор качественной сборки генома эукариотического организма
Ввиду своей красоты, для анализа был выбран карлик небесный, крылатый колибри.
По запросу Trochilidae на NCBI Datasets было найдено несколько референсных сборок. Была выбрана первая для калипты Анны — bCalAnn1_v1.p, уровень сборки — Chromosome.
2. Характеристики выбранной сборки
| Параметр | Значение |
|---|---|
| Идентификатор GenBank | GCA_003957555.2 |
| Идентификатор RefSeq | GCF_003957555.1 |
| Уровень сборки генома | Chromosome |
| Общий размер генома (п.н.) | 1 059 687 259 |
| Число фрагментов (хромосом) генома в сборке | 33 (гаплоидный набор) |
| Число скэффолдов | 159 |
| N50 скэффолдов | 74 081 004 |
| L50 скэффолдов | 4 |
| Число контигов | 584 |
| N50 контигов | 14 522 327 |
| L50 контигов | 21 |
Пояснение N50 и L50: N50 — такая длина, что сумма длин всех фрагментов (контигов или скэффолдов), длина которых ≥ N50, составляет не менее 50% от общей длины сборки. L50 — минимальное число самых длинных фрагментов, суммарная длина которых составляет ≥50% от общей длины.
3. Скачанные файлы
GCF_003957555.1_bCalAnn1_v1.p_genomic.fna.gz— нуклеотидные последовательности генома в формате FASTA.GCF_003957555.1_bCalAnn1_v1.p_protein.faa.gz— предсказанные белковые последовательности в формате FASTA.GCF_014858855.1_ASM1485885v1_genomic.gbff.gz— аннотированный геном в формате GenBank flat file.
Файлы доступны для скачивания с NCBI FTP
4. Знакомство с поисковыми системами NCBI и ENA
В качестве примера выбран белок трипсин — пищеварительный фермент, вырабатываемый поджелудочной железой, расщепляющий белки до пептидов.
Поиск в NCBI
Базовый запрос trypsin[Title] даёт 22 169 записей, из них:
- genomic DNA/RNA: 1 478
- mRNA: 20 231
| Запрос | Результат |
|---|---|
| trypsin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP]) | 22 169 |
| ... AND refseq[filter] | 15 274 |
| ... AND ddbj_embl_genbank[filter] | 6 883 |
| trypsin[Title] AND Human[Organism] | 331 (mRNA:304, genomic:14, transcribed:8) |
| ... AND Human[Organism] AND ddbj_embl_genbank[filter] | 280 (GenBank) |
| ... AND Human[Organism] AND refseq[filter] | 51 (RefSeq) |
| ... AND Human[Organism] AND ddbj[filter] | 15 (DDBJ) |
| trypsin[Title] NOT inhibitor[Title] | 17 188 (≈5 тыс. записей с ингибиторами) |
Примечание: Большое количество записей RefSeq связано с включением предсказанных последовательностей (префиксы XM_, XP_) для многих организмов.
Поиск в ENA
| Запрос | Результат |
|---|---|
| description="trypsin" AND mol_type="mrna" | 5 651 |
| scientific_name="Homo sapiens" AND description="trypsin" AND mol_type="genomic dna" | 25 |
ENA показывает меньшее количество записей, чем NCBI, что отражает различия в охвате и методах индексации.