Нуклеотидные банки данных
1. Характеристика качества сборки генома Citrus sinensis
Апельсин (Citrus × sinensis (L.) Osbeck) - наиболее широко культивирумый представитель цитрусовых, впервые начал выращиваться в Древнем Китае. Вероятно, является гибридом мандарина (Citrus reticulata) и помело (Citrus maxima). Имеет большое хозяйственное значение в связи с использованием его плодов в пищу.
![orange](orange.jpg)
Для выбранного организма в NCBI Genome есть две сборки. Для описания была взята сборка Csi_valencia_1.0 (RefSeq ID: GCF_000317415.1)
Качество сборки | Chromosome |
Общая длина последовательности | 327,829,540 |
Общая длина без гэпов | 301,231,509 |
Гэпы между скэффолдами | 151 |
Количество скэффолдов | 4,995 |
Скэффолд N50 | 1,778,813 |
Скэффолд L50 | 51 |
Количество контигов | 17,383 |
Контиг N50 | 49,898 |
Контиг L50 | 1,784 |
Общее количество хромосом и плазмид | 10 |
Количество аннотированных белков | 39,056 |
BioProject | PRJNA208209 |
Один из скэффолдов | NW_006257058.1 |
2.Получение последовательности CDS одного из вирусов прокариот
Поиск был произведен по Nucleotide на сайте NCBI с помощью advanced search. Запрос выглядел так:
((Myoviridae[Organism]) AND 80000:90000[Sequence Length]) AND complete genome
Было получено 166 результатов, 134 из которых принадлежат базе GenBank, а 32 - RefSeq.
AC нуклеотидной записи | NC_031939.1 |
Латинское название / TaxID вида | Salmonella phage BPS15Q2 / 2560723 |
Тип генома | ds-DNA, linear |
Хозяин вируса | Бактерия рода Salmonella |
Файл с предположительно кодирующими последовательностями. Получен через Send to → coding sequences → format: FASTA Nucleotide
3.Описание ключей из таблицы особенностей
На сайте INSDC.org был рассмотрен feature table document, откуда была взята информация по ключам. 7 ключей рассмотрены в таблице ниже:
Ключ | Описание | Пример |
V_region | Вариабельная область иммуноглобулина легких и тяжелых цепей, Т-клеточных рецепторов и т.д. | V_region 55..327 /gene="TCR1A" |
regulatory | Любой участок последовательности, отвечающий за регуляцию транскрипции, трансляции, репликации или структуры хроматина. | regulatory 1310..1317 /regulatory_class="polyA_signal_sequence" /gene="ubc42" |
operon | Название группы смежных генов, транскрибируемых в единый транскрипт | operon 160..6865 /operon="gal" |
rep_origin | Ориджин репликации (участок, с которого начинается репликация ДНК) | rep_origin 6 /direction=LEFT /note="ori" |
sig_peptide | Кодирующая последовательность сигнального пептида; кодирующая последовательность N-концевого домена секретируемого белка | sig_peptide 1..54 /gene="TCR1A" |
tRNA | Транспортная РНК | tRNA complement(189014..189100) /locus_tag="AW869_01020" /product="tRNA-Leu" /inference="COORDINATES: profile:tRNAscan-SE:1.23" /anticodon=(pos:complement(189064..189066),aa:Leu,seq:taa) |
repeat_region | Область генома, содержащая повторяющиеся участки | repeat_region 1101214..1101607 /inference="COORDINATES: alignment:crt:1.2" /inference="COORDINATES: alignment:pilercr:v1.02" /rpt_family="CRISPR" /rpt_type=direct /rpt_unit_range=1101275..1101302 /rpt_unit_seq="ggtttatccccgctggcgcggggaacac" |