Банки нуклеотидных последовательностей

Характеристика качества сборки генома эукариотического организма

Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 1. Adineta vaga
Таблица 1. Характеристика сборки генома Adineta vaga.
Название вида Adineta vaga
Краткое описание Adineta vaga относится к классу бделлоидных коловраток. Коловратки - беспозвоночные клады Spiralia. Бделлоидные коловратки, обитающие в пресноводных водоемах по всему миру, представляют особый интерес, так как у них отсутствует половое размножение. Для них не обнаружены ни мужские половые органы, не мейоз. Это удивительно, поскольку существует множество теорий, объясняющих негативные последствия от долгого (в масштабе эволюции) отсутствия полового размножения. Исследование, в процессе которого была получена рассматриваемая мной сборка генома, показало, что структура генома бделлоидных коловраток несовместима с обычным мейозом. Однако как-то эти животные генетическую рекомбинацию все же осуществляют: активно обмениваются генами горизонтально, в том числе с прокариотами.
Число сборок генома 3
Название выбранной сборки AMS_PRJEB1171_v1
GenBank AC GCA_000513175.1
Уровень сборки Scaffold
Общая длина последовательности 217,933,776
Число скэффолдов 36,167
Scaffold N50 260,259
Scaffold L50 240
Число контигов 41,968
Contig N50 94,665
Contig L50 579
Число аннотированных белков Видимо, для даннной сборки не делали аннотацию белков.
Публикация с описанием проекта Flot JF et al., "Genomic evidence for ameiotic evolution in the bdelloid rotifer Adineta vaga.", Nature, 2013 Aug 22;500(7463):453-7
Последовательность одного из контигов Последовательность. Получена по ссылке WGC Project (CAWI02), затем по ссылке из строки WGS, затем был взят первый из 41,657 контигов.

Последовательности CDS прокариотического вируса

Полный геном вируса Podoviridae длиной 50000-60000 b.p. был найден в NCBI Nucleotide с помощью запроса '"Podoviridae"[Organism] AND 00000050000[SLEN] : 00000060000[SLEN] AND "complete genome"[All Fields]'.
Всего нашлось 32 в GenBank, 8 в RefSeq. Был выбран первый геном из RefSeq: псевдомонадный фаг O4. Информация о нем доступна в Таблице 2.

Таблица 2. Геном Pseudomonas phage O4.
AC нуклеотидной записи NC_031274.1
Латинское название и TaxID Pseudomonas phage O4, 1784982
Тип генома linear dsDNA
Хозяин вируса Pseudomonas aeruginosa PAO1
Участки, кодирующие белки (CDS) Скачать файл. Получен по ссылке Send to -> Coding sequences -> FASTA

Некоторые ключи таблицы особенностей

1. "regulatory". Любой участок последовательности, который участвует в регуляции транскрипции, трансляции, репликации или структуры хроматина. Например, участок промоторной области на 35 нуклеотидов выше старта транскрипции (консенсус: TTGACA):

regulatory      644..650
		/gene="tRNA-Leu(UUR)"
		/regulatory_class="minus_35_signal"
				

2. "mRNA". Матричная РНК, включая 5-нетранслируемый участок, кодирующие последовательности и 3'-нетранслируемый участок.

mRNA            join(10..567,789..1320)
                /gene="ubc42"
				

3. "CDS". Кодирующая последовательность. В отличие от ключа "gene", может содержать информацию о продукте (см. пример).

CDS             123..590
		/locus_tag="BJD45_gp01"
		/old_locus_tag="O4_01"
		/codon_start=1
		/transl_table=11
		/product="hypothetical protein"
		/protein_id="YP_009304480.1"
		/db_xref="GeneID:29126629"
		/translation="MARPIKYTTEKERKEAKARKARERYAKHVGEVREYVVDPNAEKY
		RGTKAYRLYHGAKSRSKANNLPFDLDIVFVASLLEESKVCPLLEVEYDDDRYTQSLDK
		IIPELGYIKSNVWIVSRRANTIKNDASLEELALLLDNFKKMLKEKISSKNSSH"
				

4. "assembly_gap". Разрыв между двумя участками сборки. Обязательно указана примерная длина (может быть "unkown"), а также тип разрыва.

assembly_gap    90722459..90772458
		/estimated_length=50000
		/gap_type="between scaffolds"
				

5. "STS". Sequence-tagged site. Короткая (200-500 нуклеотидов) последовательность ДНК, которая встречается в геноме только один раз, и чье положение и последовательность оснований известны. Обычно опознаются праймерами при ПЦР.

 STS            10435..11060
		/standard_name="D1S80"
		/db_xref="UniSTS:146832"
				

6. "ncRNA". Не-белок-кодирующий ген, не являющийся также геном рибосомальной РНК или транспортной РНК, функциональной молекулой которого является РНК-транскрипт.

ncRNA          join(184277..184458,185067..185450,187141..187405)
		/ncRNA_class="lncRNA"
		/gene="MMEL1-AS1"
		/product="MMEL1 antisense RNA 1, transcript variant X5"
		/note="Derived by automated computational analysis using
		gene prediction method: Gnomon. Supporting evidence
		includes similarity to: 2 ESTs, and 100% coverage of the
		annotated genomic feature by RNAseq alignments, including
		6 samples with support for all annotated introns"
		/transcript_id="XR_951611.2"
		/db_xref="GeneID:105378597"
		/db_xref="HGNC:HGNC:40695"
				

7. "misc_feature". Участок, который представляет интерес, однако не может быть описан с помощью какого бы то ни было другого ключа. Новая или редкая особенность. В примере - вещь чисто техническая.

 misc_feature   219010..263356
		/note="Anchor sequence. This sequence is derived from alt
		loci or patch scaffold components that are also components
		of the primary assembly unit. It was included to ensure a
		robust alignment of this scaffold to the primary assembly
		unit. Anchor component: AL831784.17"