Банки нуклеотидных последовательностей
Характеристик качества сборки генома
Для работы я решил выбрать Серую ворону (Corvus cornix).
Фото серой вороны, автор Генадий Дьякин [1]
На сайте NCBI находится только одна версия генома (вот ссылка).
Всего два проекта по секвенированию: один по митохондриальному геному серой вороны, другой по геномам серой и черной вороны.
описание образца
перевод описания образца
описание проекта
Число скефолдов 1'299
Число контигов 28'920
Ссылка на контиги
Контиг N50 94'375
Контиг L50 2'953
Самый длинный контиг 1'030'777
Самый короткий контиг 226
Ссылка на один из котингов
Описание ключей
Название |
Описание |
Пример |
mat_peptide |
Последовательность кодирующая белок с пост трансляционными модификациями, не включает стоп-кодон
|
mat_peptide 4728..5243
/gene='vif' |
CDS |
Кодирующий участок, соответствует последовательности аминокислот, включает стоп-кодон
|
CDS 190..255
/gene="thrL"
/locus_tag="ECRM12581_0005"
/note="involved in threonine biosynthesis; controls the
expression of the thrLABC operon; label: thrL CDS; leader;
Amino acid biosynthesis: Threonine"
/codon_start=1
/transl_table=11
/product="thr operon leader peptide"
/protein_id="AHY68531.1" |
stem_loop |
Участок, в котором одноцепочечный нуклеотид (ДНК или РНК) комплементарно спаривается сам с собой, то есть образуется петля. Важно, например, в транскрипции.
|
stem_loop 1956..2080
/gene="MLC-f"
/citation=[1] |
polyA_site |
Указывает на РНК-транскрипт, к которому будут добавлены остатки аденина в ходе посттранскрипционного полиаденилирования. Используется толкько в последовательностях эукариот и эукариотических вирусов.
|
polyA_site 3143
/gene="CENPC"
/gene_synonym="CENP-C; CENPC1; hcp-4; MIF2"
/experiment="experimental evidence, no additional details
recorded" |
ncRNA |
Не белок-кодирующий гены
|
ncRNA 3475..3524
/ncRNA_class="other"
/locus_tag="SM2011_c06000"
/product="putative ncRNA"
/note="corresponds to SMc06000;
based on oriented RNAseq data" |
centromere |
Область известная в качестве центромеры, показанная экспериментально
|
complement(26968..32592)
/locus_tag="TTRE_0000382201" |
sig_peptide |
Последовательность сигнального пептида, для кодирования N-терминального домена секретируемого белка. Домен вовлечен в присоединение формирующегося полипептида к мембран-ведущей последовательности.
|
sig_peptide 16..24
/product='pro-region of alkaline protease' |
repeat_region |
Область генома, содержащая повторяющееся участки
|
repeat_region 264642..264671
/note="degenerate repeat region containing 2 copies of a
15bp unit"
/rpt_type=tandem |
rep_origin |
Участки генома, содержащие повторы.
|
rep_origin 1..442
/note="oriV; conserved part of vegetative replication
origin including interons" |
STS |
Маркерный сайт. Короткая, не имеющая копий последовательность, которая может быть обнаруженна при ПЦР. Регион генома может быть картирован сопоставлением набора STS'ов.
|
STS 2050089..2050757
/standard_name="ha2600"
/db_xref="UniSTS:515570" |
Состояние 10000 геномного проекта на 2016 год
Существуют геномные проекты на 1000 и более секвенирований.
Многие активно развиваются первые два-три года, но потом их судьбы разделяются - часть проектов продолжает развитие, а часть
подзабрасывается, и замораживается.
Раз уж пошла такая пьянка с птицами, то я решил выбрать и проект с птицами - B10k. Цель проекта - собрать геномы 10500 видов птиц.
Проект стартовал в декабре 2014 года, когда были опубликованы первые 34 генома птиц. На данный момент (последняя запись от августа 2016) собранно 194 генома, столько же
секвенированно .При этом собранно 2500 образцов из 2400 видов, из 900 которых выделены ДНК.
Оснавная часть исследователей базируется в Китае, Дании, США, Австралии и Англии.
Проект поделен на четыре фазы: сиквенс 34 порядков, 300 семейств и подсемейств, 2500 родов и подродов, и 10500 видов. В данный момент проект находится на второй фазе - пока что секвенированно только 194 семейства из 300.
Ссылка на PubMed
Таблица митохондриальных генов
Мне достался таксон Malawimonadidae. В нем известны всего два митохондриальных генома, и оба из рода Malawimonads.
Malawimonadidae[orgn] AND mitochondrion[filter] AND complete[title] AND genome[all fields]
Запрос находит четыре файла: по два на два вида Malawimonas: Malawimonas californiana и Malawimonas jakobiformis.
Представители рода Malawimonads
Я остановился на Malawimonas jakobiformis. Вот таблица для белок-кодирующих митохондриальных генов
|