Практикум 7
Организм
В этом практикуме я описываю геном Bufo bufo, серой жабы. Серые жабы принадлежат семейству жабы (Bufonidae), отряду бесхвостые земноводные (Anura) класса земноводных (Amphibia). Они очень распространены в Европе. Серые жабы диплоидны (удивительно), 2N=22 (Streicher, 2021), определение пола у них хромосомное, самки гетерогаметны и самцы гомогаметны (Nemesház et al., 2022). Видимо, именно поэтому для сборки взяли генетческий материал самца.
Сборка генома
Сборку генома я искала по запросу Anura в NCBI, поиск выдал мне 65 результатов, в 24 из которых уровень сборки был Chromosome (выше не было). Из попавшихся организмов я выбрала Bufo bufo. Для нее существует две сборки генома, но у одной из них уровень сборки был Scaffold, и я взяла вторую сборку с уровнем Chromosome. Название этой сборки — aBufBuf1.1
Уровень этой сборки — Chromosome, т.е. скэффолды локализированы на хромосоме(-ах) (возможно, не все), хотя в последовательности хромосомы могут быть гэпы.
Это референсный геном, т.е. эта сборка была выбрана вручную как самая качественная для этого организма и теперь используется как стандартная.
Идентификатор GenBank | GCA_905171765.1 |
---|---|
Идентификатор RefSeq | GCF_905171765.1 |
Размер генома | 5 Гб |
N50 для контигов | 4 Мб |
L50 для контигов | 350 |
N50 для скэффолдов | 635,7 Мб |
L50 для скэффолдов | 4 |
Параметр L50 — минимальное количество контигов или скэффолдов, в которое помещается 50% генома.
Параметр N50 — максимальная длина последовательности, такая что в контиги или скэффолды этой или большей длины помещается 50% генома. Иными словами, это длина самого короткого контига или скэффолда из L50.
Файлы из NCBI FTP
В табл. 2 можно увидеть информацию о (почти всех) файлах, которые можно найти в базе данных NCBI FTP по ссылке.
Файл | Размер файла | Описание файла |
---|---|---|
Bufo_bufo_AR100 _annotation_report.xml |
46 кб | Из новой информации:
|
*_assembly_report.txt | 125 Кб | Информация о хромосомах, скэффолдах и контигах, место которых в геноме или на хромосоме неизвестно: размер, хромосома (если известна), etc. |
*_assembly_stats.txt | 19 Кб | Длина, длина без гэпов, число скэффолдов, N50, GC-состав и другая информация про весь геном, про собранные хромосомы, про скэффолдам и контигам. |
*_cds_from_genomic.fna.gz | 17 Мб | Аннотированные CDS этой сборки: названия, места в геноме, последовательности. |
*_feature_count.txt.gz | 342 б | Количество генов, кодирующих разные РНК, псевдогенов, белок-кодирующих генов, etc. |
*_feature_table.txt.gz | 2,7 Мб | Feature table для этой сборки: начало, конец, функция каждой CDS, другая информация про них. |
*_genomic.fna.gz | 1,4 Гб | Последовательность генома в формате fasta. |
*_genomic.gbff.gz | 1,9 Гб | Последовательность генома в формате genbank. |
*_genomic.gff.gz | 13 Мб | Что-то вроде feature table для этой сборки: начало, конец, функция генов, экзонов, CDS, мРНК и других последовательностей, другая информация про них. |
*_genomic.gtf.gz | 13 Мб | Аналогичный файл, но в нем еще есть информация о стоп- и старт-кодонов. |
*_genomic_gaps.txt.gz | 41 Кб | Информация о гэпах: длина, координаты, etc. |
*_protein.faa.gz | 8,8 Мб | Последовательности белков в формате fasta. |
*_protein.gpff.gz | 21 Мб | Информация о гэпах: длина, координаты, etc. |
*_pseudo_without_product.fna.gz | 3,7 Мб | Псевдогены в формате fasta. |
*_rna.fna.gz | 22 Мб | Предсказанные последовательности РНК в формате fasta. |
*_rna.gbff.gz | 63 Мб | РНК, их транслированные продукты. |
*_rna_from_genomic.fna.gz | 25 Мб | Последовательности РНК в том виде, в котором они закодированы в геноме, в формате fasta. |
*_translated_cds.faa.gz | 12 Мб | Транслированные CDS в формате fasta. |
Список литературы
- Nemesházi E, Sramkó G, Laczkó L, Balogh E, Szatmári L, Vili N, Ujhegyi N, Üveges B, Bókony V. Novel genetic sex markers reveal unexpected lack of, and similar susceptibility to, sex reversal in free-living common toads in both natural and anthropogenic habitats. Mol Ecol. 2022 Apr;31(7):2032-2043. doi: 10.1111/mec.16388. Epub 2022 Feb 24. PMID: 35146823; PMCID: PMC9544883.
- Streicher JW; Wellcome Sanger Institute Tree of Life programme; Wellcome Sanger Institute Scientific Operations: DNA Pipelines collective; Tree of Life Core Informatics collective; Darwin Tree of Life Consortium. The genome sequence of the common toad, Bufo bufo (Linnaeus, 1758). Wellcome Open Res. 2021 Oct 20;6:281. doi: 10.12688/wellcomeopenres.17298.1. PMID: 35028424; PMCID: PMC8729185.