Практикум 7

Банки нуклеотидных последовательностей

Для работы был взят модельный организм Danio rerio. Это тропическая пресноводная рыба, в природе она обитает в реках северной Индии, Пакистана, Непала и Бутана. Danio rerio используют в качестве модельного объекта, например, для исследований в области биологии развития, поэтому геном этого организма достаточно хорошо изучен.

В базе данных NCBI Genome для Danio rerio указаны 2 сборки генома: GRCz10 (GenBank assembly GCA_000002035.3) и WGS31 (GenBank assembly GCA_000767325.1). Для первой сборки использовался образец SAMN03020626, для второй - SAMEA3146315. Оба образца получены из линии Tuebingen (дикий тип). При этом обе сборки относятся к одному проекту по секвенированию данного организма, PRJNA11776. Для дальнейшей работы была выбрана более полная сборка- GRCz10.

Для этой сборки в качестве образца использовался набор из семи отдельных образцов, которые имеют собственные BioSample ID: SAMN03014687-SAMN03014693. Ссылка на BioSample ID для всей группы: SAMN03020626.

Проект по секвенированию генома Danio rerio, PRJNA11776, был начат в 2001 году в Институте Сэнгера (The Wellcome Trust Sanger Institute). Предыдущий WGS проект - WGS31, представляет сборку генома, полученную при использовании метода Illumina и прочтения по Сэнгеру. Он был заменен новым проектом, в котором удалены многие гэпы и определено положение ранее нелокализованных участков генома. Сейчас секвенирование производится группой GRC (Genome Reference Consortium).

В таблице 1 представлена информация о числе контигов и скэффолдов сборки. В данный момент сборка GRCz10 находится на уровне хромосом (Assembly level: Chromosome). Это значит, что уже известно, какие именно последовательности составляют отдельные хромосомы.

Таблица 1. Информация о числе контигов и скэффолдов в сборке GRCz10 (GenBank assembly GCA_000002035.3) и о качестве сборки.
Общая длина последовательности 1,371,719,383
Число скэффолдов 3,399
N50 для скэффолдов 2,181,225
L50 для скэффолдов 153
Число контигов 22,852
N50 для контигов 1,258,148
L50 для контигов 252
Общее число хромосом (+ мтДНК) 26

Для данной сборки не указан WGS проект, поэтому был использован проект CABZ01 для другой сборки генома Danio rerio. По данной ссылке доступна таблица всех контигов для сборки WGS31. Всего их 119,119, их общая длина 1,400,912,823 п.о. В таблице представлены контиги по 50 штук на лист, отсортированы по названию. Вся таблица в формате .txt доступна по ссылке. Самый длинный контиг имеет длину 215,016 п.о. (CABZ01060317), самые короткие длиной 501 нуклеотид (CABZ01021198, CABZ01083106 и CABZ01088203). Для данной сборки N50 для контигов 24,925; L50 для контигов 16,539.

По следующей ссылке доступна последовательность одного из контигов, CABZ01000014, в формате fasta.

Описание ключей таблиц в базе данных NCBI

Ключ Описание Пример
source Указывает на биологический источник участка генетического материала определённой протяжённости; Ключ является обязательным; Разрешено указывать этот ключ более одного раза на одну последовательность; Каждая запись должна иметь как минимум один такой ключ, охватывающий всю последовательность, или несколько ключей, которые вместе охватывают всю последовательность. 1..8959,
/organism="Homo sapiens",
/db_xref="taxon:9606",
/mol_type="genomic DNA"
CDS CDS — участок, кодирующий какую-либо последовательность аминокислотных остатков в существующем белке 14..1495
/db_xref="MENDEL:11000"
/db_xref="UniProtKB/Swiss-Prot:P26204"
/note="non-cyanogenic"
/EC_number="3.2.1.21"
/product="beta-glucosidase"
/protein_id="CAA40058.1" /translation="MDFIVAIFALFVISSFTITSTNAVEASTLLDIGNLSR.......
regulatory Любая область последовательности, функция которой заключается в регуляции транскрипции или трансляции. 95..100,
/gene="sod",
/regulatory_class="ribosome_binding_site"
3'UTR некодирующий 3'-участок 5584..5857
5'UTR 1)Регион на 5' конце транскрипта (перед инициаторным кодоном), который не транслируется в белок.
2)Регион на 5' конце генома РНК-вирусов (предшествует первому инициаторному кодону), который не транслируется в белок
/organism="Mus musculus"
/chromosome="14"
1..28
oriT ориджин переноса; участок, необходимый для переноса ДНК от донорной клетки к акцепторной в процессе бактериальной конъюгации 15948..16349,
/standard_name="oriT"
exon Область генома, которая кодирует части сплайсированных мРНК, рРНК и тРНК 789..1320,
/gene="ubc42",
/number=2
ncRNA участок, кодирующий РНК, не являющуюся ни матричной, ни рибосомальной, ни транспортной complement(join(70484..71246,71352..71508,75207..75371,,77975..78296)),
/ncRNA_class="lncRNA",
/gene="LOC105375113",
/product="uncharacterized LOC105375113, transcript variant,X3",
/note="Derived by automated computational analysis using,gene prediction method: Gnomon. Supporting evidence,includes similarity to: 1 mRNA, 1 EST, and 100% coverage,of the annotated genomic feature by RNAseq alignments",
/transcript_id="XR_955329.2",
/db_xref="GeneID:105375113"
mRNA участок, предположительно соответствующий созревшей мРНК: содержит кодирующие участки и нетранслируемые 5' и 3' участки join(127766..127901,127991..128023,128127..128223,,128301..128386,128475..128519,128657..128787,,129259..129369,129457..129890),
/locus_tag="TCM_000030",
/product="Translation initiation factor IF6 isoform 1",
/inference="alignment:exonerate-,protein:2:ricco:28592.m000280.2",
/inference="similar to AA sequence (same,species):CacaoGD:Thecc1EG043359t2"
C_region Консервативный регион легкой и тяжелой цепей иммуноглобулина, T-клеточных рецепторов α, β, γ цепей, включает один или больше экзонов, в зависимости от цепи /organism="Rattus norvegicus"
406..726
/note="constant region"

Состояние дел в одном из массовых геномных проектов

Human microbiome project проект США цель которого найти и охарактеризовать сообщества микроорганизмов живущие в здоровых и больных людях.

В проекте использовались различные не культурные методики - метагеномный анализ и полногеномное секвенирование.

Опорные данные
Название Human Microbiome Project
Цель секвенирование и получение из открытых источников геномов около 3000 видов, живущих в организме человека
Год начала 2008
Ссылка hmpdacc.org
Организация National Institutes of Health (NIH)
Страна США
Планируемое число геномов 3000
Число геномов 4767, из них 1530 секвенировано в рамках проекта
Последняя публикация Antibiotic perturbation of the preterm infant gut microbiome and resistome (PubMed)

Таблица митохондриальных генов одного из организмов таксона Amoebozoa

Был произведен поиск по всему таксону. Первым найденным организмом с полным митохондриальным геномом был Physarum polycephalum.

Слезивик Physarum polycephalum - ярко-желтая капля, которая живет в тенистых местах, в гниющей листве и под корягами в лесу. Этот слизевик примечателен тем, что может передвигаться. Так же слизевик может запоминать временные интервалы. В одном из опытов ученые меняли условия содержания Physarum polycephalum с холодных на теплые с интервалом в 60 минут и заметили, что слизевик подготавливается к смене "погоды", когда подходило время. Этот опыт повторяли с различными интервалами времени (30 и 90 минут) и во всех случая слизевик "запоминал", когда должна смениться температура

Поиск полных митохондриальных геномов в NCBI осуществлялся следуйщим образом:

Сначала поиск в базе данных Nucleotide по запросу:
((Mitochondrial )) AND Amoebozoa[Organism] NOT ((gene))

Первый же отклик - полный митохондриальный геном Physarum polycephalum.

Но по слегка измененному запросу (*mitochondrion) нашлась плазмида с гораздо большим числом нуклеотидов в сборке(62,862 bp против 14,503 bp) она и была взята.

Запрос дающий все находки в таксоне (31 находка):
(((((("mitochondrion"[TITL] ) AND ("complete sequence"[TITL] OR "complete genome"[TITL])) AND Amoebozoa[Organism])) NOT RNA[Title])) NOT gene[Title]

Аналогичный запрос по RefSeq (9 находок):
(((((("mitochondrion"[TITL] ) AND ("complete sequence"[TITL] OR "complete genome"[TITL])) AND Amoebozoa[Organism])) NOT RNA[Title])) NOT gene[Title]) AND srcdb_refseq[PROP]

Из генома гены были собраны в XML файл

Term 3

Main page


© Artemiy Polozhintsev (Артемий Положинцев) 2016