Нуклеотидные банки данных

Описание сборки генома эукариотического организма

Организм: Danio rerio, zebrafish (Данио-рерио). Данная рыба имеет небольшую длину (4-5 см) и обитает в реках Южной Азии. Данио-рерио - это модельный организм для изучения развития позвоночных, биологии развития и генетических заболеваний человека.
Picture1
Table 1. Описание сборки генома
Число сборок 12
Assembly name fDreCBz1.1
AC (RefSeq) -
GenBank assembly accession GCA_903798165.1 (latest)
Assembly level Chromosome
Total sequence length 1,421,796,480
Number of scaffolds 46,554
Number of contigs 144,175
Scaffold N50 48,671,076
Scaffold L50 13
Contig N50 17,459
Contig L50 19,310
Файл с контигом contig50

Примечание

Контиг - секвенированный без пропусков фрагмент ДНК, собирается в компьютере из прочтений

Скэффолд - набор контигов, про которые известно взаимное расположение и примерное расстояние; разрывы заполняют соответствующим количеством букв N

N50 - длина самого длинного контига, такого, что этот и все более длинные контиги покрывают более половины генома

L50 - номер контига (при упорядочивании по убыванию длины), длина которого равна N50

CDS прокариотического вируса

Был произведен поиск полных геномов длиной 3000-4000 среди семейства вирусов Leviviridae:

((Leviviridae[Organism]) AND 3000:4000[Sequence Length] AND complete genome)

Общее количество находок: 19

Количество находок в GenBank : 16

Количество находок в RefSeq : 3

Среди найденных 19 полных геномов был выбран геном Escherichia phage MS2
Picture 2. Bacteriophage MS2 capsid structure.
Table 2. Описание полного генома Escherichia phage MS2
AC MK213795
Латинское название Escherichia phage MS2
TaxID 12022
тип генома RNA, single strand, linear
тип генома RNA, single strand, linear
хозяина вируса Escherichia coli
файл с участками генома, предположительно кодирующими белки (CDS) CDS

Примечание

Получение файла с кодирующими белками (CDS): "Send to" > "Coding Sequences" > "FASTA Nucleotide"

Feature keys

Table 3. Feature keys
Feature key Описание AC Фрагмент записи
exon экзон NM_025099

1..53

/gene="CTC1"

/gene_synonym="AAF-132; AAF132; C17orf68; CRMCC;

tmp494178"

/inference="alignment:Splign:2.1.0"

misc_feature последовательность, для которой известна вторичная структура/третичная структура/конформация NM_025099

1002..1061

/gene="CTC1"

/gene_synonym="AAF-132; AAF132; C17orf68; CRMCC;

tmp494178"

/note="propagated from UniProtKB/Swiss-Prot (Q2NKJ3.2);

regulatory участок последовательности, который регулирует процессы транскрипции, трансляции, репликации и укладку хроматина NM_025099

4014..4019

/regulatory_class="polyA_signal_sequence"

/gene="CTC1"

/gene_synonym="AAF-132; AAF132; C17orf68; CRMCC;

tmp494178"

/note="hexamer: AATGAA"

polyA_site поли-А сайт мРНК NM_025099

4033

/gene="CTC1"

/gene_synonym="AAF-132; AAF132; C17orf68; CRMCC;

tmp494178"

/note="major polyA site"

repeat_region область генома, содержащая повторы M63936

1..448

/note="X element repeats"

/rpt_type=direct