Нуклеотидные банки данных

1. Описание сборки генома эукариотического организма

Объектом для изучения в данном практикуме стал геном рыбы фугу или бурого скалозуба (Takifugu rubripes). Бурый скалозуб относится к классу Лучеперых рыб, семейство Иглобрюховых, отряд Иглобрюхообразные. Обитает в морских и солоноватых водах северо-западной части Тихого океана. Неритическая донная немигрирующая рыба, встречающаяся на глубинах до 100 м. Взрослые рыбы держатся в бухтах, иногда проникая в солоноватые воды. Длина теда 40 - 80 см. Тело покрыто колючками. Содержит яд тетродотоксин. Является деликатесом японской кухни, при неправильном приготовлении употребление в пищу может привести к смерти.
Число сборок генома: 3 (1 Scaffold, 2 Chromosome)

fig1
Fig. 1 Takifugu rubripes. Источник: Википедия
Описание сборки генома

Была выбрана сборка с самым высоким уровнем (Chromosome) от 13.10.2011. Есть сборка поновее, но она сожержит слишком длинные контиги, поэтому была выбрана предыдущая сборка. (ссылка на сборку)

  1. Assembly name: FUGU5
  2. AC сборки из RefSeq: GCF_000180615.1
  3. Assembly level: Chromosome
  4. Общая длина последовательности: 391,468,278
  5. Число контигов: 30,860
    Contig N50: 52,883
    Contig L50: 1,722
  6. Число скэффолдов: 7,090
    Scaffold N50: 928,938
    Scaffold L50: 113
  7. Cсылка на публикацию: Integration of the genetic map and genome assembly of fugu facilitates insights into distinct features of genome evolution in teleosts and mammals
  8. Последовательность контига: contig_225

2. Описание последовательности CDS прокариотического вируса

Для получения списка полных геномов был произведен поиск по базе Nucleotide по следующему запросу: ((Siphoviridae[Organism]) AND 90000:100000[Sequence Length]) AND complete genome
Всего находок 73, 48 GenBank, 16 RefSeq

Информация о геноме Staphylococcus epidermidis phage 6ec
ссылка на геном

  1. Accession: NC_024355
  2. TaxID: 500386 Staphylococcus phage 6ec
  3. Тип генома: линейная двуцепочечная ДНК
  4. Хозяин вируса: Staphylococcus epidermidis
  5. Файл с последовательностями CDS: CDS.fasta

Файл с кодирующими белки фрагментами генома ьыл получен следующим способом: Send to → Coding Sequences → Format FASTA Nucleotide

3. Описание ключей таблицы локальных особенностей

1. C_region. AC примера: NW_020656510
Постоянный регион легких и тяжелых цепей иммуноглобулинов, а также Т-клеточных рецепторов альфа, бета и гамма-цепей; включает один или несколько экзонов в зависимости от конкретной цепи

C_region      complement(join(379..906,1009..1326,1587..1925,2006..2323,
                     7090..7366))
                     /gene="LOC113249536"
                     /standard_name="Ig mu chain C region-like"
                     /experiment="COORDINATES: polyA evidence [ECO:0006239]"
                     /db_xref="GeneID:113249536"

2. propeptide. AC примера: LR995269
Последовательность, кодирующая пропептид (последовательность, кодирующая домен пропептида, который в процессе пострансляционной модификации отрывается для формирования зрелого белка)

propeptide      1..138
                     /note="partial"

3. regulatory AC примера: CP079233
любой участок последовательности, который участвует в регуляции транскрипции, трансляции, репликации, рекомбинации или структуры хроматина

regulatory      complement(125087..125190)
                     /regulatory_class="riboswitch"
                     /inference="COORDINATES: nucleotide
                     motif:Rfam:12.0:RF00059"
                     /inference="COORDINATES: profile:INFERNAL:1.1.1"
                     /note="TPP riboswitch; Derived by automated computational
                     analysis using gene prediction method: cmsearch."
                     /bound_moiety="thiamine pyrophosphate"

4. sig_peptide AC примера: LC636137
последовательность, кодирующая сигнальный пептид (последовательность, кодирующая N-терминальный домен выделяемого белка)

sig_peptide     5331..5450
                     /gene="3xFLAG NLS"
                     /note="nuclear localization signal with 3xFLAG tag"

5. STS AC примера: NM_011682
Sequence-tagged site (STS) – это это короткая (200-500 bp), единожды встречающаяся в геноме последовательность ДНК, которая служит в качестве ориентира для картирования генома и которая может быть распознана с помощью ПЦР (регион генома можно картировать, определяя порядок серии SDS)

STS             677..941
                     /gene="Utrn"
                     /gene_synonym="AA589569; Dmdl; DRP"
                     /standard_name="RH125005"