Отчёт по практикуму 7

Геномные банки данных

Седьмой практикум посвящён некоторым аспектам работы с базами данных, содержащими геномы и их фрагменты или ассоциированные последовательности (в общем, всё связанное с геномами, что когда-то решили хранить).

Качество сборки генома

Здесь будет охарактеризована сборка генома конкретного многоклеточного эукариота, полученная из NCBI Genome.

Я выбрал растение вида Acer yangbiense Y.S.Chen & Q.E.Yang. Это растение не имеет общепринятого русского названия, но латинское можно было бы перевести примерно как Клён янбийский. Это единственный представитель рода, сборка для которого нашлась в банке. Данный вид клёна эндемичен для провинции Юньнань Китайской народной республики и назван по уезду, в котором впервые описан. Деревья достигают 20 м в высоту и 20 см по диаметру ствола; листья пятилопастные, опушённые с абаксиальной стороны (BHL). На рис. 1 представлен гербарный образец вида (фото из PoWO).

китайский клён
Рисунок 1. Acer yangbiense, гербарий

У вида есть только одна сборка генома — очевидно, она и будет лучшей. Она описана в таблице 1.

Таблица 1. Характеристика сборки генома A. yangbiense
НазваниеAYv1.1
AC из GenBankGCA_008009225.1
Уровень сборкиChromosome
Общая длина665887899
Число контигов555
Число скэффолдов280
N50 для контигов5864378
L50 для контигов36
N50 для скэффолдов44917698
L50 для скэффолдов6
Генов белков
аннотировано
28320

Несмотря на наличие символа нижнего подчёркивания в коде доступа сборки, он был подписан именно как GenBank AC. Опубликована статья с описанием проекта (из неё взяты данные о числе генов белков). Для получения контига со страницы, посвящённой сборке, я перешёл по ссылке в поле WGS project, затем — в поле WGS (на открывшейся странице). Далее можно было выбирать из списка, я скачал контиг ctg23.

Скачивание фаговых CDS

Во втором задании от меня требовалось получить список полных геномов Corticoviridae длиной от 10000 до 20000 пар оснований.

Запрос, применённый в NCBI Nucleotide:

Находок в GenBank оказалось 3, а в RefSeq — 2, что видно в левом меню на странице с результатами поиска (там можно задать дополнительные фильтры). Для подробной характеристики я выбрал вирус Pseudoalteromonas phage PM2. С тем, что я узнал про него, можно ознакомиться в таблице 2.

Таблица 2. Характеристика генома Pseudoalteromonas phage PM2
AC записиNC_000867.1
Латинское название
вида
Pseudoalteromonas virus PM2
Taxonomy ID вида10661
Тип геномакольцевая ds-DNA
Хозяин вирусабактерия рода Pseudoalteromonas

Чтобы получить файл с CDS, я щёлкнул по меню Send to: > Coding Sequences > FASTA (Nucleotide) > Create File на странице NCBI с записью о геноме.

Семь ключей из таблиц особенностей

Здесь будет описано семь ключей, используемых в Feature Tables в NCBI GenBank. Данные я почерпнул из приведённой на сайте инструкции (прокариоты, эукариоты). Встречаются как ключи особенностей, так и ключи квалификаторов. Вот выбранные мной ключи и примеры их использования:

  1. trans_except
    Используется при возникновении необходимости отметить нестандартную аминокислоту (закодированную необычным методом). Пример:
         CDS             join(51615..52483,52648..52744,52808..52918,52984..53137,
                         53904..53963)
                         /gene="Or7"
                         /locus_tag="CCIN_CCIN017898"
                         /inference="similar to RNA sequence,
                         mRNA:RefSeq:XM_025082041.1"
                         /note="manually curated model, revised mRNA compared to
                         XM_025082041.1,Four stop codons and four intron splice
                         problems and one frameshift.; Odorant receptor 7,
                         pseudogene"
                         /pseudogene="unknown"
                         /codon_start=1
                         /transl_except=(pos:52086..52088,aa:OTHER)
                         /db_xref="I5KNAL:CCIN017898"
  2. misc_binding
    Отмечает участок транскрибируемой РНК, связывающий известный лиганд. Пример:
         misc_binding    64027..64264
                         /inference="COORDINATES: nucleotide
                         motif:Rfam:12.0:RF00230"
                         /inference="COORDINATES: profile:INFERNAL:1.1.1"
                         /note="T-box leader; Derived by automated computational
                         analysis using gene prediction method: cmsearch."
                         /bound_moiety="tRNA"
                         /db_xref="RFAM:RF00230"
  3. db_xref
    Ссылка на другую базу данных. Пример:
         source          1..75297
                         /organism="Candidatus Tremblaya princeps"
                         /mol_type="genomic DNA"
                         /isolate="TREMTM"
                         /db_xref="taxon:189385"
                         /note="contig: contig03"
  4. repeat_region
    Используется для аннотации «вставных» последовательностей, транспозонов. Пример:
         repeat_region   3108125..3109272
                         /rpt_family="CRISPR"
  5. variation
    Указание на полиморфизм. Пример:
         variation       16198
                         /note="Variation type: SNP; Variations: G/A; Frequencies:
                         86.3/13.7; Amino acid change: His -> Tyr"
  6. regulatory
    Применяется при описании промоторов, терминаторов, сайтов связывания рибосомных переключателей на транскрибируемой РНК. Пример:
         regulatory      33996..34038
                         /regulatory_class="terminator"
  7. locus_tag
    Даёт систематическое именование гену. Пример:
         CDS             join(51615..52483,52648..52744,52808..52918,52984..53137,
                         53904..53963)
                         /gene="Or7"
                         /locus_tag="CCIN_CCIN017898"
                         /inference="similar to RNA sequence,
                         mRNA:RefSeq:XM_025082041.1"
                         /note="manually curated model, revised mRNA compared to
                         XM_025082041.1,Four stop codons and four intron splice
                         problems and one frameshift.; Odorant receptor 7,
                         pseudogene"
                         /pseudogene="unknown"
                         /codon_start=1
                         /transl_except=(pos:52086..52088,aa:OTHER)
                         /db_xref="I5KNAL:CCIN017898"

Выполнив три задания, я открыл для себя некоторые новые разделы NCBI (справку о том, как аннотировать геномы!), но при этом я не обращался напрямую к DDBJ и ENA.