Практикум 7

Организм

В этом практикуме я описываю геном Bufo bufo, серой жабы. Серые жабы принадлежат семейству жабы (Bufonidae), отряду бесхвостые земноводные (Anura) класса земноводных (Amphibia). Они очень распространены в Европе. Серые жабы диплоидны (удивительно), 2N=22 (Streicher, 2021), определение пола у них хромосомное, самки гетерогаметны и самцы гомогаметны (Nemesház et al., 2022). Видимо, именно поэтому для сборки взяли генетческий материал самца.

Рис. 1. Bufo bufo, если вы вдруг не знаете, как она выглядит. Источник

Сборка генома

Сборку генома я искала по запросу Anura в NCBI, поиск выдал мне 65 результатов, в 24 из которых уровень сборки был Chromosome (выше не было). Из попавшихся организмов я выбрала Bufo bufo. Для нее существует две сборки генома, но у одной из них уровень сборки был Scaffold, и я взяла вторую сборку с уровнем Chromosome. Название этой сборки — aBufBuf1.1

Уровень этой сборки — Chromosome, т.е. скэффолды локализированы на хромосоме(-ах) (возможно, не все), хотя в последовательности хромосомы могут быть гэпы.

Это референсный геном, т.е. эта сборка была выбрана вручную как самая качественная для этого организма и теперь используется как стандартная.

Табл. 1. Информация о сборке генома.
Идентификатор GenBank GCA_905171765.1
Идентификатор RefSeq GCF_905171765.1
Размер генома 5 Гб
N50 для контигов 4 Мб
L50 для контигов 350
N50 для скэффолдов 635,7 Мб
L50 для скэффолдов 4

Параметр L50 — минимальное количество контигов или скэффолдов, в которое помещается 50% генома.
Параметр N50 — максимальная длина последовательности, такая что в контиги или скэффолды этой или большей длины помещается 50% генома. Иными словами, это длина самого короткого контига или скэффолда из L50.

Файлы из NCBI FTP

В табл. 2 можно увидеть информацию о (почти всех) файлах, которые можно найти в базе данных NCBI FTP по ссылке.

Табл. 2. Информация о сборке генома. * — GCF_905171765.1_aBufBuf1.1
Файл Размер файла Описание файла
Bufo_bufo_AR100
_annotation_report.xml
46 кб Из новой информации:
  • BUSCO-score исследуемой сборки и трех других сборок геномов земноводных;
  • Количество генов, псевдогенов, белок-кодирующих генов, генов со сдвигами рамки, etc;
  • Количество мРНК и другой РНК разных типов;
  • Минимум, максимум, медиана и среднее для количества транскриптов на ген, экзонов на транскрипт, длины генов, длины транскриптов, etc;
  • Информация об отфильтрованных и неотфильтрованных ридах;
  • Выравнивание белков на другие геномы: человека, данио-рерио, гладкой шпорцевой лягушки, etc;
  • Другая информация, которую я опустила.
*_assembly_report.txt 125 Кб Информация о хромосомах, скэффолдах и контигах, место которых в геноме или на хромосоме неизвестно: размер, хромосома (если известна), etc.
*_assembly_stats.txt 19 Кб Длина, длина без гэпов, число скэффолдов, N50, GC-состав и другая информация про весь геном, про собранные хромосомы, про скэффолдам и контигам.
*_cds_from_genomic.fna.gz 17 Мб Аннотированные CDS этой сборки: названия, места в геноме, последовательности.
*_feature_count.txt.gz 342 б Количество генов, кодирующих разные РНК, псевдогенов, белок-кодирующих генов, etc.
*_feature_table.txt.gz 2,7 Мб Feature table для этой сборки: начало, конец, функция каждой CDS, другая информация про них.
*_genomic.fna.gz 1,4 Гб Последовательность генома в формате fasta.
*_genomic.gbff.gz 1,9 Гб Последовательность генома в формате genbank.
*_genomic.gff.gz 13 Мб Что-то вроде feature table для этой сборки: начало, конец, функция генов, экзонов, CDS, мРНК и других последовательностей, другая информация про них.
*_genomic.gtf.gz 13 Мб Аналогичный файл, но в нем еще есть информация о стоп- и старт-кодонов.
*_genomic_gaps.txt.gz 41 Кб Информация о гэпах: длина, координаты, etc.
*_protein.faa.gz 8,8 Мб Последовательности белков в формате fasta.
*_protein.gpff.gz 21 Мб Информация о гэпах: длина, координаты, etc.
*_pseudo_without_product.fna.gz 3,7 Мб Псевдогены в формате fasta.
*_rna.fna.gz 22 Мб Предсказанные последовательности РНК в формате fasta.
*_rna.gbff.gz 63 Мб РНК, их транслированные продукты.
*_rna_from_genomic.fna.gz 25 Мб Последовательности РНК в том виде, в котором они закодированы в геноме, в формате fasta.
*_translated_cds.faa.gz 12 Мб Транслированные CDS в формате fasta.

Список литературы

  1. Nemesházi E, Sramkó G, Laczkó L, Balogh E, Szatmári L, Vili N, Ujhegyi N, Üveges B, Bókony V. Novel genetic sex markers reveal unexpected lack of, and similar susceptibility to, sex reversal in free-living common toads in both natural and anthropogenic habitats. Mol Ecol. 2022 Apr;31(7):2032-2043. doi: 10.1111/mec.16388. Epub 2022 Feb 24. PMID: 35146823; PMCID: PMC9544883.
  2. Streicher JW; Wellcome Sanger Institute Tree of Life programme; Wellcome Sanger Institute Scientific Operations: DNA Pipelines collective; Tree of Life Core Informatics collective; Darwin Tree of Life Consortium. The genome sequence of the common toad, Bufo bufo (Linnaeus, 1758). Wellcome Open Res. 2021 Oct 20;6:281. doi: 10.12688/wellcomeopenres.17298.1. PMID: 35028424; PMCID: PMC8729185.