Банки нуклеотидных последовательностей


Характеристик качества сборки генома

Для работы я решил выбрать Серую ворону (Corvus cornix).

Фото серой вороны, автор Генадий Дьякин [1]

На сайте NCBI находится только одна версия генома (вот ссылка).

Всего два проекта по секвенированию: один по митохондриальному геному серой вороны, другой по геномам серой и черной вороны.

описание образца

перевод описания образца

описание проекта

Число скефолдов	1'299
Число контигов	28'920

Ссылка на контиги

Контиг N50	 	94'375
Контиг L50		2'953
Самый длинный контиг 	1'030'777
Самый короткий контиг	226

Ссылка на один из котингов

Описание ключей

Название Описание Пример
mat_peptide Последовательность кодирующая белок с пост трансляционными модификациями, не включает стоп-кодон
mat_peptide     4728..5243
                               /gene='vif'
CDS Кодирующий участок, соответствует последовательности аминокислот, включает стоп-кодон
     CDS             190..255
                     /gene="thrL"
                     /locus_tag="ECRM12581_0005"
                     /note="involved in threonine biosynthesis; controls the
                     expression of the thrLABC operon; label: thrL CDS; leader;
                     Amino acid biosynthesis: Threonine"
                     /codon_start=1
                     /transl_table=11
                     /product="thr operon leader peptide"
                     /protein_id="AHY68531.1"
stem_loop Участок, в котором одноцепочечный нуклеотид (ДНК или РНК) комплементарно спаривается сам с собой, то есть образуется петля. Важно, например, в транскрипции.
stem_loop       1956..2080
                     /gene="MLC-f"
                     /citation=[1]
polyA_site Указывает на РНК-транскрипт, к которому будут добавлены остатки аденина в ходе посттранскрипционного полиаденилирования. Используется толкько в последовательностях эукариот и эукариотических вирусов.
polyA_site      3143
                     /gene="CENPC"
                     /gene_synonym="CENP-C; CENPC1; hcp-4; MIF2"
                     /experiment="experimental evidence, no additional details
                     recorded"
ncRNA Не белок-кодирующий гены
     ncRNA           3475..3524
                     /ncRNA_class="other"
                     /locus_tag="SM2011_c06000"
                     /product="putative ncRNA"
                     /note="corresponds to SMc06000;
                     based on oriented RNAseq data"
centromere Область известная в качестве центромеры, показанная экспериментально
complement(26968..32592) 
/locus_tag="TTRE_0000382201"
sig_peptide Последовательность сигнального пептида, для кодирования N-терминального домена секретируемого белка. Домен вовлечен в присоединение формирующегося полипептида к мембран-ведущей последовательности.
sig_peptide     16..24
                               /product='pro-region of alkaline protease'
repeat_region Область генома, содержащая повторяющееся участки
repeat_region   264642..264671
                     /note="degenerate repeat region containing 2 copies of a
                     15bp unit"
                     /rpt_type=tandem
rep_origin Участки генома, содержащие повторы.
rep_origin      1..442
                     /note="oriV; conserved part of vegetative replication
                     origin including interons"
STS Маркерный сайт. Короткая, не имеющая копий последовательность, которая может быть обнаруженна при ПЦР. Регион генома может быть картирован сопоставлением набора STS'ов.
STS		2050089..2050757
		/standard_name="ha2600"
		/db_xref="UniSTS:515570"

Состояние 10000 геномного проекта на 2016 год

Существуют геномные проекты на 1000 и более секвенирований. Многие активно развиваются первые два-три года, но потом их судьбы разделяются - часть проектов продолжает развитие, а часть подзабрасывается, и замораживается.

Раз уж пошла такая пьянка с птицами, то я решил выбрать и проект с птицами - B10k. Цель проекта - собрать геномы 10500 видов птиц.

Проект стартовал в декабре 2014 года, когда были опубликованы первые 34 генома птиц. На данный момент (последняя запись от августа 2016) собранно 194 генома, столько же секвенированно .При этом собранно 2500 образцов из 2400 видов, из 900 которых выделены ДНК.

Оснавная часть исследователей базируется в Китае, Дании, США, Австралии и Англии.

Проект поделен на четыре фазы: сиквенс 34 порядков, 300 семейств и подсемейств, 2500 родов и подродов, и 10500 видов. В данный момент проект находится на второй фазе - пока что секвенированно только 194 семейства из 300.

Ссылка на PubMed

Таблица митохондриальных генов

Мне достался таксон Malawimonadidae. В нем известны всего два митохондриальных генома, и оба из рода Malawimonads.

Malawimonadidae[orgn] AND mitochondrion[filter] AND complete[title] AND genome[all fields]

Запрос находит четыре файла: по два на два вида Malawimonas: Malawimonas californiana и Malawimonas jakobiformis.

Представители рода Malawimonads

Я остановился на Malawimonas jakobiformis. Вот таблица для белок-кодирующих митохондриальных генов


на главную

© Гавриш Глеб 2016