Нуклеотидные банки данных

1. Характеристика качества сборки генома Citrus sinensis

Апельсин (Citrus × sinensis (L.) Osbeck) - наиболее широко культивирумый представитель цитрусовых, впервые начал выращиваться в Древнем Китае. Вероятно, является гибридом мандарина (Citrus reticulata) и помело (Citrus maxima). Имеет большое хозяйственное значение в связи с использованием его плодов в пищу.

orange
Автор: Massimo L. - собственная работа, Общественное достояние

Для выбранного организма в NCBI Genome есть две сборки. Для описания была взята сборка Csi_valencia_1.0 (RefSeq ID: GCF_000317415.1)

Качество сборкиChromosome
Общая длина последовательности327,829,540
Общая длина без гэпов301,231,509
Гэпы между скэффолдами151
Количество скэффолдов4,995
Скэффолд N501,778,813
Скэффолд L5051
Количество контигов17,383
Контиг N5049,898
Контиг L501,784
Общее количество хромосом и плазмид10
Количество аннотированных белков39,056
BioProjectPRJNA208209
Один из скэффолдовNW_006257058.1

2.Получение последовательности CDS одного из вирусов прокариот

Поиск был произведен по Nucleotide на сайте NCBI с помощью advanced search. Запрос выглядел так:
((Myoviridae[Organism]) AND 80000:90000[Sequence Length]) AND complete genome
Было получено 166 результатов, 134 из которых принадлежат базе GenBank, а 32 - RefSeq.

AC нуклеотидной записи NC_031939.1
Латинское название / TaxID вида Salmonella phage BPS15Q2 / 2560723
Тип генома ds-DNA, linear
Хозяин вируса Бактерия рода Salmonella

Файл с предположительно кодирующими последовательностями. Получен через Send to → coding sequences → format: FASTA Nucleotide

3.Описание ключей из таблицы особенностей

На сайте INSDC.org был рассмотрен feature table document, откуда была взята информация по ключам. 7 ключей рассмотрены в таблице ниже:

Ключ Описание Пример
V_region Вариабельная область иммуноглобулина легких и тяжелых цепей, Т-клеточных рецепторов и т.д.
V_region        55..327
                /gene="TCR1A"
regulatory Любой участок последовательности, отвечающий за регуляцию транскрипции, трансляции, репликации или структуры хроматина.
regulatory      1310..1317
                /regulatory_class="polyA_signal_sequence"
                /gene="ubc42"
operon Название группы смежных генов, транскрибируемых в единый транскрипт
operon          160..6865
                /operon="gal"
rep_origin Ориджин репликации (участок, с которого начинается репликация ДНК)
rep_origin      6
                /direction=LEFT
                /note="ori"
sig_peptide Кодирующая последовательность сигнального пептида; кодирующая последовательность N-концевого домена секретируемого белка
sig_peptide     1..54
                /gene="TCR1A"
tRNA Транспортная РНК
 tRNA            complement(189014..189100)
                     /locus_tag="AW869_01020"
                     /product="tRNA-Leu"
                     /inference="COORDINATES: profile:tRNAscan-SE:1.23"
                     /anticodon=(pos:complement(189064..189066),aa:Leu,seq:taa)
repeat_region Область генома, содержащая повторяющиеся участки
repeat_region   1101214..1101607
                     /inference="COORDINATES: alignment:crt:1.2"
                     /inference="COORDINATES: alignment:pilercr:v1.02"
                     /rpt_family="CRISPR"
                     /rpt_type=direct
                     /rpt_unit_range=1101275..1101302
                     /rpt_unit_seq="ggtttatccccgctggcgcggggaacac"