Геномные банки данных
Седьмой практикум посвящён некоторым аспектам работы с базами данных, содержащими геномы и их фрагменты или ассоциированные последовательности (в общем, всё связанное с геномами, что когда-то решили хранить).
Качество сборки генома
Здесь будет охарактеризована сборка генома конкретного многоклеточного эукариота, полученная из NCBI Genome.
Я выбрал растение вида Acer yangbiense Y.S.Chen & Q.E.Yang. Это растение не имеет общепринятого русского названия, но латинское можно было бы перевести примерно как Клён янбийский. Это единственный представитель рода, сборка для которого нашлась в банке. Данный вид клёна эндемичен для провинции Юньнань Китайской народной республики и назван по уезду, в котором впервые описан. Деревья достигают 20 м в высоту и 20 см по диаметру ствола; листья пятилопастные, опушённые с абаксиальной стороны (BHL). На рис. 1 представлен гербарный образец вида (фото из PoWO).
У вида есть только одна сборка генома — очевидно, она и будет лучшей. Она описана в таблице 1.
Название | AYv1.1 |
---|---|
AC из GenBank | GCA_008009225.1 |
Уровень сборки | Chromosome |
Общая длина | 665887899 |
Число контигов | 555 |
Число скэффолдов | 280 |
N50 для контигов | 5864378 |
L50 для контигов | 36 |
N50 для скэффолдов | 44917698 |
L50 для скэффолдов | 6 |
Генов белков аннотировано | 28320 |
Несмотря на наличие символа нижнего подчёркивания в коде доступа сборки, он был подписан именно как GenBank AC. Опубликована статья с описанием проекта (из неё взяты данные о числе генов белков). Для получения контига со страницы, посвящённой сборке, я перешёл по ссылке в поле WGS project, затем — в поле WGS (на открывшейся странице). Далее можно было выбирать из списка, я скачал контиг ctg23.
Скачивание фаговых CDS
Во втором задании от меня требовалось получить список полных геномов Corticoviridae длиной от 10000 до 20000 пар оснований.
Запрос, применённый в NCBI Nucleotide:
- "Corticoviridae"[Organism] AND (complete[All Fields] AND genome[All Fields]) AND ("10000"[SLEN] : "20000"[SLEN])
Находок в GenBank оказалось 3, а в RefSeq — 2, что видно в левом меню на странице с результатами поиска (там можно задать дополнительные фильтры). Для подробной характеристики я выбрал вирус Pseudoalteromonas phage PM2. С тем, что я узнал про него, можно ознакомиться в таблице 2.
AC записи | NC_000867.1 |
---|---|
Латинское название вида | Pseudoalteromonas virus PM2 |
Taxonomy ID вида | 10661 |
Тип генома | кольцевая ds-DNA |
Хозяин вируса | бактерия рода Pseudoalteromonas |
Чтобы получить файл с CDS, я щёлкнул по меню Send to: > Coding Sequences > FASTA (Nucleotide) > Create File на странице NCBI с записью о геноме.
Семь ключей из таблиц особенностей
Здесь будет описано семь ключей, используемых в Feature Tables в NCBI GenBank. Данные я почерпнул из приведённой на сайте инструкции (прокариоты, эукариоты). Встречаются как ключи особенностей, так и ключи квалификаторов. Вот выбранные мной ключи и примеры их использования:
- trans_except
Используется при возникновении необходимости отметить нестандартную аминокислоту (закодированную необычным методом). Пример:
CDS join(51615..52483,52648..52744,52808..52918,52984..53137, 53904..53963) /gene="Or7" /locus_tag="CCIN_CCIN017898" /inference="similar to RNA sequence, mRNA:RefSeq:XM_025082041.1" /note="manually curated model, revised mRNA compared to XM_025082041.1,Four stop codons and four intron splice problems and one frameshift.; Odorant receptor 7, pseudogene" /pseudogene="unknown" /codon_start=1 /transl_except=(pos:52086..52088,aa:OTHER) /db_xref="I5KNAL:CCIN017898"
- misc_binding
Отмечает участок транскрибируемой РНК, связывающий известный лиганд. Пример:
misc_binding 64027..64264 /inference="COORDINATES: nucleotide motif:Rfam:12.0:RF00230" /inference="COORDINATES: profile:INFERNAL:1.1.1" /note="T-box leader; Derived by automated computational analysis using gene prediction method: cmsearch." /bound_moiety="tRNA" /db_xref="RFAM:RF00230"
- db_xref
Ссылка на другую базу данных. Пример:
source 1..75297 /organism="Candidatus Tremblaya princeps" /mol_type="genomic DNA" /isolate="TREMTM" /db_xref="taxon:189385" /note="contig: contig03"
- repeat_region
Используется для аннотации «вставных» последовательностей, транспозонов. Пример:
repeat_region 3108125..3109272 /rpt_family="CRISPR"
- variation
Указание на полиморфизм. Пример:
variation 16198 /note="Variation type: SNP; Variations: G/A; Frequencies: 86.3/13.7; Amino acid change: His -> Tyr"
- regulatory
Применяется при описании промоторов, терминаторов, сайтов связывания рибосомных переключателей на транскрибируемой РНК. Пример:
regulatory 33996..34038 /regulatory_class="terminator"
- locus_tag
Даёт систематическое именование гену. Пример:
CDS join(51615..52483,52648..52744,52808..52918,52984..53137, 53904..53963) /gene="Or7" /locus_tag="CCIN_CCIN017898" /inference="similar to RNA sequence, mRNA:RefSeq:XM_025082041.1" /note="manually curated model, revised mRNA compared to XM_025082041.1,Four stop codons and four intron splice problems and one frameshift.; Odorant receptor 7, pseudogene" /pseudogene="unknown" /codon_start=1 /transl_except=(pos:52086..52088,aa:OTHER) /db_xref="I5KNAL:CCIN017898"
Выполнив три задания, я открыл для себя некоторые новые разделы NCBI (справку о том, как аннотировать геномы!), но при этом я не обращался напрямую к DDBJ и ENA.