Банки нуклеотидных последовательностей

Задание 1. Качество сборки генома эукариотического организма - лотоса орехоносного.

  • Название вида: Nelumbo nucifera, лотос орехоносный

  • Краткое описание: Лотос орехоносный - многолетнее травянистое растение. Данный вид занесён в Красную книгу России. Всё растение съедобно и применяется в лекарственных и пищевых целях. Корень лотоса считается деликатесом в японской, тайской и китайской кухне. Его употребляют в виде салатов, жарят, тушат, используют для украшения блюд. Содержащиеся в лотосе полезные вещества обладают антисептическим действием, повышают свертываемость крови, снимают судороги, а отвар заживляет раны. Собирают листья в течение лета, нарезают на мелкие кусочки и засушивают. Из них готовят отвары, чаи и настойки, делают порошки и добавляют в пищу.

  • число сборок генома: 4

  • Картиночка

  • Название (assembly name): ASM303368v1

  • AC сборки из GenBank: GCA_003033685.1

  • "Уровень" сборки (assembly level): Chromosome

  • Общая длина последовательности: 817,267,751

  • Число контигов: 53,811

  • Число скэффолдов: 2,341

  • N50 для скеффолдов: 109,862,362

  • L50 для скеффолдов: 3

  • N50 для контигов: 44,440

  • L50 для контигов: 4,649

  • Число аннотированных белков: 0

  • Ссылка на последовательность одного из контигов в формате .fasta

  • Задание 2. Последовательность CDS одного из прокариотических вирусов семейства Rudiviridae с длиной 30,000-40,000 нуклеотидов.

    Для того, чтобы найти геном, удовлетворяющих данному семейству и длине, в расширенном поске NCBI были указаны следующие параметры:

    (Rudiviridae[Organism]) AND 30000:40000[Sequence Length] AND complete genome

    По моему запросу было предложено 4 генома из Gene Bank, 11 из RefSeq (это очень странно), среди которых я выбрала полный геном вируса - Sulfolobales Beppu rod-shaped virus 1 clone D

    Далее привожу для него некоторую информацию:

  • AC нуклеотидной записи: MK064565.1

  • Латинское название и TaxID вида: Sulfolobales Beppu rod-shaped virus 1; 2493121

  • Тип генома: линейная двухцепочечная ДНК

  • Хозяина вируса: archaea

  • Чтобы получить ссылку на файл .fasta с участками генома, предположительно кодирующими белки(CDS): Send to → Coding Sequences → FASTA Nucleotide. файл

    Задание 3. Описание ключей, используемых в таблицах особенностей.

    Описание было найдено на сайте INSDC в разделе 7.2 Appendix II: Feature keys reference.

    Название ключа Описание ключа Пример использования
    centromere Центромера описывает интервал ДНК, на котором удерживаются хроматиды, формируя хромосому 555957..556073
    /note="CEN16; Chromosome XVI centromere"
    /db_xref="SGD:S000006477"
    misc_feature Область генома, которая не может быть описана любым другим функциональным ключом в связи с её неизвестной или редкой функцией 97861..97960
    /note="16S ribosomal RNA rRNA prediction is too short"
    mobile_element Описывает расположение и вид элементов, которые могут перемещаться внутри генома. Существует несколько классов мобильных элементов генома, отличающихся по строению и способу перемещения. Например: транспозоны и ретротранспозоны. 1..2266
    /mobile_element_type="integron:class 1"
    ncRNA Область генома, соответствующая некодирующим РНК, то есть тем, которые не транслируются в белки. К некодирующим РНК относят тРНК и рРНК. Последовательность ДНК, на которой транскрибируются некодирующие РНК, часто называют РНК-геном 35765..35862
    /ncRNA_class="SRP_RNA"
    /gene="ffs"
    /locus_tag="GDN47_RS27750"
    /product="signal recognition particle sRNA small type"
    /inference="COORDINATES: nucleotide
    motif:Rfam:12.0:RF00169"
    /inference="COORDINATES: profile:INFERNAL:1.1.1"
    /note="Derived by automated computational analysis using
    gene prediction method: cmsearch."
    /db_xref="RFAM:RF00169"
    polyA_site Предоставляет информацию о сайте мРНК, к которому присоединяется большое количество остатков аденозинмонофосфата(к 3'-концу первичной мРНК) в ходе процессинга 1329
    /gene="INHA"
    /note="polyadenylation site"
    regulatory Любая область последовательности, функцией которой является регуляция транскрипции, трансляции, репликации
    9002..9119
    /regulatory_class="riboswitch"
    /inference="COORDINATES: nucleotide
    motif:Rfam:12.0:RF00634"
    /inference="COORDINATES: profile:INFERNAL:1.1.1"
    /note="SAM riboswitch class IV; Derived by automated
    computational analysis using gene prediction method:
    cmsearch."
    /bound_moiety="S-adenosylmethionine"
    /db_xref="RFAM:RF00634" 
    unsure Небольшая область генома, обычно 10 пар оснований, в нуклеотидной последовательности которой учёные не уверены (в этой области могут встретиться как A. T, G, C, так и N)
    161..166
    /gene="Noc3l"
    /gene_synonym="AF233884; Fad24"
    /note="<30 qual single clone coverage"