Нуклеотидные банки данных


Задание 1. Описание сборки генома эукариотического организма

Организм:

Осьминог обыкновенный - Octopus vulgaris (common octopus)


Описание:

Осьминог обыкновенный относится к классу Головоногие моллюски типа Моллюски, наиболее широко распространенный вид рода Осьминог, встречающийся от восточной части Атлантики и Средиземноморья до южного побережья Африки - в тропических, субтропических и умеренных водах. Обитают эти животные обычно на дне в неглубоких прибрежных зонах морей и океанов. Размеры тела осьминога могут достигать 25 см, длина щупалец - 1 м. Питаются крабами, раками, двустворчатыми моллюсками, охотится обычно в сумеречное время с помощью клюва, которым пробивает раковины и панцири, а также парализующего яда. Осьминоги обладают высокоразвитой нервной системой, наиболее прогрессивной среди беспозвоночных. Эксперименты показали, что они даже поддаются обучению. Справа представлены изображения осьминогов описанного вида, источники можно открыть по ссылкам в подписи.


Число сборок генома:

В базе данных всего одна сборка для данного вида, датированная 21.12.2018, она же принята за лучшую.


Octopus vulgaris у берегов Южной Америки

Octopus vulgaris в океанариуме в Дюссельдорфе

Название сборкиASM395772v1
АС (GenBank)GCA_003957725.1
Уровень сборкиScaffold
Длина последовательности1,772,957,336
Число контигов786,906
N503,040
L50137,635
Число скэффолдов77,681
N50265,914
L501,583
ПубликацияThe survey and reference assisted assembly of the Octopus vulgaris genome. Zarrella I, et al. Sci Data 2019 Apr 1
Последовательность контигаfasta-файл

Задание 2. Поиск последовательности CDS прокариотического вируса

Для получения списка полных геномов, удовлетворяющих заданным условиям, был выполнен следующий запрос по NCBI Nucleotide:
((Corticoviridae[Organism]) AND 10000:20000[Sequence Length]) AND complete genome
В результате было найдено 15 геномов, в том числе 13 из GenBank и 2 из RefSeq


АСNC_042121
Латинское названиеPseudoalteromonas phage Cr39582
TaxID2560654
Тип геномакольцевая двуцепочечная ДНК
ХозяинPseudoalteromonas sp. strain Cr6751
Файл с кодирующими участкамиfasta-файл

Задание 3. Ключи таблицы локальных особенностей.

Описания ключей локальных особенностей взяты на сайте INSDC с привлечением дополнительных источников, ссылки на которые предоставлены по ходу описания.


  • regulatory
    - описание структуры участка последовательности, регулирующего процессы транскрипции, трансляции, репликации, а также укладку хроматина. В пример приведен участок типа riboswitch, который представляет собой участок мРНК, отвечающий за связывание малых молекул, влияющих на синтез закодированных в ней белков. Пример взят из описания генома Lactococcus lactis NZ_CP065737

  • regulatorycomplement(35370..35467)
    /regulatory_class="riboswitch"
    /inference="COORDINATES: nucleotide
    motif:Rfam:12.0:RF00167"
    /inference="COORDINATES: profile:INFERNAL:1.1.1"
    /note="purine riboswitch; Derived by automated
    computational analysis using gene prediction method:
    cmsearch."
    /bound_moiety="guanine and/or adenine"
    /db_xref="RFAM:RF00167"

  • tmRNA
    - транспортно-матричная РНК - молекула РНК, которая сначала выполняет функцию транспортной, а затем матричной, кодирующей белковую метку. В процессе трансляции матричного участка tmRNA пептидная метка присоединяется рибосомой к С-концу синтезируемого белка, и таким образом помечается белок, который должен быть расщеплен. Пример взят из того же генома Lactococcus lactis.

  • tmRNAcomplement(158437..158795)
    /gene="ssrA"
    /locus_tag="I6G22_RS01200"
    /old_locus_tag="I6G22_01200"
    /product="transfer-messenger RNA"
    /inference="COORDINATES: nucleotide
    motif:Rfam:12.0:RF00023"
    /inference="COORDINATES: profile:INFERNAL:1.1.1"
    /note="Derived by automated computational analysis using
    gene prediction method: cmsearch."
    /db_xref="RFAM:RF00023"

  • ncRNA
    - некодирующая РНК, не транслируемая в белок и отличная от транспортной и рибосомальной. В приведенном примере представлено описание участка, кодирующего lncRNA - длинную некодирующую РНК. Функцией длинной некодирующей РНК может быть регуляция трансляции и посттрансляционных модификаций, транскрипции, клеточной дифференцировки и эпигенетических процессов, экспрессии генов и клеточного цикла. Некоторые из них могут функционировать как онкогены или опухолевые супрессоры, влияют на развитие нейродегенеративных заболеваний и играют роль в формировании иммунного ответа. Примеры в этом пункте и далее взяты из генома Homo sapiens NC_000006

  • ncRNAcomplement(join(109026..109280,110779..111100))
    /ncRNA_class="lncRNA"
    /gene="LOC107986552"
    /product="uncharacterized LOC107986552"
    /note="Derived by automated computational analysis using
    gene prediction method: Gnomon. Supporting evidence
    includes similarity to: 100% coverage of the annotated
    genomic feature by RNAseq alignments, including 11 samples
    with support for all annotated introns"
    /transcript_id="XR_001743907.1"
    /db_xref="GeneID:107986552"

  • sig_peptide
    - участок, кодирующий сигнальный пептид, который обеспечивает котрансляционный или посттрансляционный транспорт белка в определенную органеллу.

  • sig_peptidejoin(3118741..3118847,3123657..3123660)
    /gene="BPHL"
    /gene_synonym="BPH-RP; MCNAA; VACVASE"
    /note="/evidence=ECO:0000269|PubMed:12732646; propagated
    from UniProtKB/Swiss-Prot (Q86WA6.1)"

  • mat_peptide
    - последовательность зрелого белка, прошедшего посттрансляционную модификацию, не включающая стоп-кодон, в отличие от CDS.

  • mat_peptidejoin(3123661..3123760,3127242..3127408,3129045..3129198,
    3137362..3137493,3140386..3140509,3152488..3152572)
    /gene="BPHL"
    /gene_synonym="BPH-RP; MCNAA; VACVASE"
    /product="Valacyclovir hydrolase. /id=PRO_0000017841"
    /note="propagated from UniProtKB/Swiss-Prot (Q86WA6.1)"