Геномные банки данных

Седьмой практикум посвящён некоторым аспектам работы с базами данных, содержащими геномы и их фрагменты или ассоциированные последовательности (в общем, всё связанное с геномами, что когда-то решили хранить).

Качество сборки генома

Здесь будет охарактеризована сборка генома конкретного многоклеточного эукариота, полученная из NCBI Genome.

Я выбрал растение вида Acer yangbiense Y.S.Chen & Q.E.Yang. Это растение не имеет общепринятого русского названия, но латинское можно было бы перевести примерно как Клён янбийский. Это единственный представитель рода, сборка для которого нашлась в банке. Данный вид клёна эндемичен для провинции Юньнань Китайской народной республики и назван по уезду, в котором впервые описан. Деревья достигают 20 м в высоту и 20 см по диаметру ствола; листья пятилопастные, опушённые с абаксиальной стороны (BHL). На рис. 1 представлен гербарный образец вида (фото из PoWO).

китайский клён — Рисунок 1. *Acer yangbiense*, гербарий

У вида есть только одна сборка генома — очевидно, она и будет лучшей. Она описана в таблице 1.

Таблица 1. Характеристика сборки генома *A. yangbiense*
Название	AYv1.1
AC из GenBank	GCA_008009225.1
Уровень сборки	Chromosome
Общая длина	665887899
Число контигов	555
Число скэффолдов	280
N50 для контигов	5864378
L50 для контигов	36
N50 для скэффолдов	44917698
L50 для скэффолдов	6
Генов белков аннотировано	28320

Несмотря на наличие символа нижнего подчёркивания в коде доступа сборки, он был подписан именно как GenBank AC. Опубликована статья с описанием проекта (из неё взяты данные о числе генов белков). Для получения контига со страницы, посвящённой сборке, я перешёл по ссылке в поле WGS project, затем — в поле WGS (на открывшейся странице). Далее можно было выбирать из списка, я скачал контиг ctg23.

Скачивание фаговых CDS

Во втором задании от меня требовалось получить список полных геномов Corticoviridae длиной от 10000 до 20000 пар оснований.

Запрос, применённый в NCBI Nucleotide:

"Corticoviridae"[Organism] AND (complete[All Fields] AND genome[All Fields]) AND ("10000"[SLEN] : "20000"[SLEN])

Находок в GenBank оказалось 3, а в RefSeq — 2, что видно в левом меню на странице с результатами поиска (там можно задать дополнительные фильтры). Для подробной характеристики я выбрал вирус Pseudoalteromonas phage PM2. С тем, что я узнал про него, можно ознакомиться в таблице 2.

Таблица 2. Характеристика генома Pseudoalteromonas phage PM2
AC записи	NC_000867.1
Латинское название вида	Pseudoalteromonas virus PM2
Taxonomy ID вида	10661
Тип генома	кольцевая ds-DNA
Хозяин вируса	бактерия рода Pseudoalteromonas

Чтобы получить файл с CDS, я щёлкнул по меню Send to: > Coding Sequences > FASTA (Nucleotide) > Create File на странице NCBI с записью о геноме.

Семь ключей из таблиц особенностей

Здесь будет описано семь ключей, используемых в Feature Tables в NCBI GenBank. Данные я почерпнул из приведённой на сайте инструкции (прокариоты, эукариоты). Встречаются как ключи особенностей, так и ключи квалификаторов. Вот выбранные мной ключи и примеры их использования:

trans_except
Используется при возникновении необходимости отметить нестандартную аминокислоту (закодированную необычным методом). Пример:

     CDS             join(51615..52483,52648..52744,52808..52918,52984..53137,
                     53904..53963)
                     /gene="Or7"
                     /locus_tag="CCIN_CCIN017898"
                     /inference="similar to RNA sequence,
                     mRNA:RefSeq:XM_025082041.1"
                     /note="manually curated model, revised mRNA compared to
                     XM_025082041.1,Four stop codons and four intron splice
                     problems and one frameshift.; Odorant receptor 7,
                     pseudogene"
                     /pseudogene="unknown"
                     /codon_start=1
                     /transl_except=(pos:52086..52088,aa:OTHER)
                     /db_xref="I5KNAL:CCIN017898"

misc_binding
Отмечает участок транскрибируемой РНК, связывающий известный лиганд. Пример:

     misc_binding    64027..64264
                     /inference="COORDINATES: nucleotide
                     motif:Rfam:12.0:RF00230"
                     /inference="COORDINATES: profile:INFERNAL:1.1.1"
                     /note="T-box leader; Derived by automated computational
                     analysis using gene prediction method: cmsearch."
                     /bound_moiety="tRNA"
                     /db_xref="RFAM:RF00230"

db_xref
Ссылка на другую базу данных. Пример:

     source          1..75297
                     /organism="Candidatus Tremblaya princeps"
                     /mol_type="genomic DNA"
                     /isolate="TREMTM"
                     /db_xref="taxon:189385"
                     /note="contig: contig03"

repeat_region
Используется для аннотации «вставных» последовательностей, транспозонов. Пример:
```
     repeat_region   3108125..3109272
                     /rpt_family="CRISPR"
```

variation
Указание на полиморфизм. Пример:

     variation       16198
                     /note="Variation type: SNP; Variations: G/A; Frequencies:
                     86.3/13.7; Amino acid change: His -> Tyr"

regulatory
Применяется при описании промоторов, терминаторов, сайтов связывания рибосомных переключателей на транскрибируемой РНК. Пример:
```
     regulatory      33996..34038
                     /regulatory_class="terminator"
```

locus_tag
Даёт систематическое именование гену. Пример:

     CDS             join(51615..52483,52648..52744,52808..52918,52984..53137,
                     53904..53963)
                     /gene="Or7"
                     /locus_tag="CCIN_CCIN017898"
                     /inference="similar to RNA sequence,
                     mRNA:RefSeq:XM_025082041.1"
                     /note="manually curated model, revised mRNA compared to
                     XM_025082041.1,Four stop codons and four intron splice
                     problems and one frameshift.; Odorant receptor 7,
                     pseudogene"
                     /pseudogene="unknown"
                     /codon_start=1
                     /transl_except=(pos:52086..52088,aa:OTHER)
                     /db_xref="I5KNAL:CCIN017898"

Выполнив три задания, я открыл для себя некоторые новые разделы NCBI (справку о том, как аннотировать геномы!), но при этом я не обращался напрямую к DDBJ и ENA.

Отчёт по практикуму 7