|
Для выполнения первого задания практикума, в котором нужно было охарактеризовать качество сборки генома эукариотического организма, я выбрала Danio rerio
(англ. zebrafish). Это тропическая пресноводная рыба (рисунок 1), в природе она обитает в реках северной Индии, Пакистана, Непала и Бутана. Danio rerio используют
в качестве модельного объекта, например, для исследований в области биологии развития, поэтому геном этого организма достаточно хорошо изучен.
Рисунок 1. Danio rerio, класс Actinopterygii, отряд Cypriniformes, семейство Cyprinidae.
В базе данных NCBI Genome для Danio rerio указаны 2 сборки генома: GRCz10 (GenBank assembly GCA_000002035.3) и WGS31
(GenBank assembly GCA_000767325.1). Для первой сборки использовался образец SAMN03020626, для второй - SAMEA3146315. Оба образца получены из
линии Tuebingen (дикий тип). При этом обе сборки относятся к одному проекту по секвенированию данного организма, PRJNA11776. Для дальнейшей работы я выбрала
более полную сборку - GRCz10.
Для этой сборки в качестве образца использовался набор из семи отдельных образцов, которые имеют собственные BioSample ID: SAMN03014687-SAMN03014693. Ссылка на
BioSample ID для всей группы: SAMN03020626.
Проект по секвенированию генома Danio rerio, PRJNA11776, был начат в 2001 году
в Институте Сэнгера (The Wellcome Trust Sanger Institute). Предыдущий WGS проект - WGS31, представляет сборку генома, полученную при использовании метода Illumina
и прочтения по Сэнгеру. Он был заменен новым проектом, в котором удалены многие гэпы и определено положение ранее нелокализованных участков генома. Сейчас секвенирование
производится группой GRC (Genome Reference Consortium).
В таблице 1 представлена информация о числе контигов и скэффолдов сборки. В данный момент сборка
GRCz10
находится на уровне хромосом (Assembly level: Chromosome). Это значит, что уже известно, какие
именно последовательности составляют отдельные хромосомы.
Таблица 1. Информация о числе контигов и скэффолдов в сборке GRCz10 (GenBank assembly GCA_000002035.3) и о качестве сборки.
|
Общая длина последовательности |
1,371,719,383 |
Число скэффолдов |
3,399 |
N50 для скэффолдов |
2,181,225 |
L50 для скэффолдов |
153 |
Число контигов |
22,852 |
N50 для контигов |
1,258,148 |
L50 для контигов |
252 |
Общее число хромосом (+ мтДНК) |
26 |
Для данной сборки не указан WGS проект, поэтому я использовала проект CABZ01 для другой сборки генома Danio rerio. По данной
ссылке доступна таблица всех контигов для сборки
WGS31. Всего их 119,119, их общая длина 1,400,912,823 п.о.
В таблице представлены контиги по 50 штук на лист, отсортированы по названию. Вся таблица в формате .txt доступна по ссылке,
далее этот файл можно импортировать в Excel. Самый длинный контиг имеет длину 215,016 п.о. (CABZ01060317), самые короткие длиной 501 нуклеотид
(CABZ01021198, CABZ01083106 и CABZ01088203). Для данной сборки N50 для контигов 24,925; L50 для контигов 16,539.
По следующей ссылке доступна последовательность одного из контигов, CABZ01000014, в формате fasta.
В следующем задании надо было составить таблицу митохондриальных генов мха Oxystegus tenuirostris (синоним Trichostomum tenuirostre). Этот мох (рисунок 2)
растет на влажных камнях или на корнях деревьев рядом с ручьями и другими водными потоками.
Рисунок 1. Oxystegus tenuirostris, класс Bryopsida, порядок Pottiales, семейство Pottiaceae.
Для того, чтобы найти в базе данных NCBI Nucleotide необходимые гены, я использовала запрос (Oxystegus tenuirostris[ORGN] gene_in_mitochondrion[PROP] complete genome[TI]).
По данному запросу был найден полный митохондриальный геном длиной 105,001 п.о. (RefSeq NC_028040.1).
Всего в митохондриальном геноме закодировано 66 генов, из них 27 кодируют различные тРНК (24) и рРНК (3), а остальные 39 - белки. В таблице представлен
список всех генов, отсортированный по началу в геноме.
Для описания ключей, используемых в таблицах особенностей, я нашла страницу, посвященную полю FT (feature table) на сайте EBI
(ссылка на эту страницу).
Список некоторых ключей с описаниями и примерами:
-
LTR - long terminal repeats - длинные концевые повторы. Это последовательности ДНК, повторенные множество раз, которые фланкируют определенные гены. Они обычно встречаются
в геномной ДНК ретровирусов и в ретротранспозонах и используются вирусами для того, чтобы встроить свой геном в геном зараженной клетки.
Пример из последовательности
ретротранспозона ели Picea abies (AJ243316.1):
FT LTR 75..>249
FT /gene="3' long terminal repeat"
FT /experiment="experimental evidence, no additional details
FT recorded"
-
misc_binding - участок нуклеиновой кислоты, который ковалентно или нековалентно связывается с некоторой молекулой, не являющейся белком или праймером. Пример из последовательности
NZ_JMKR01000002.1 (связывание с флавинмононуклеотидом):
misc_binding 76303..76465
/note="FMN riboswitch; Derived by automated computational
analysis using gene prediction method: cmsearch."
/bound_moiety="flavin mononucleotide"
-
mobile_element - участок генома, содержащий подвижные элементы. Пример взят из последовательности полного генома вируса архей
(NC_014321.1), мобильный элемент - транспозон.
mobile_element <7306..>8933
/mobile_element_type="transposon:ISDka2"
-
modified_base - указанный нуклеотид является модифицированным, модификация указана в квалификаторе "mod_base". Пример - аденин, метилированный
в положении 2.
modified_base 38
/mod_base=m2a
-
ncRNA - ген некодирующей РНК (нкРНК). Пример из JWVC03000036.1,
нкРНК - рибозим типа hammerhead (его структура по форме напоминает головку молотка).
ncRNA 31724..31792
/ncRNA_class="hammerhead_ribozyme"
/locus_tag="RQ80_19245"
/product="hammerhead ribozyme type II"
/note="Derived by automated computational analysis using
gene prediction method: cmsearch."
-
operon - оперон - участок, с которого получается полицистронный транскрипт; кластер генов, находящихся под контролем одного промотора и одних регуляторных
последовательностей, продукты которых участвуют в одном биологическом пути. Опероны встречаются в геномах бактерий. Например, оперон для синтеза сурфактина из
Bacillus subtilis (CP007409.1):
operon 364979..391127
/operon="Surfactin synthesis cluster"
- protein_binding - участок нуклеиновой кислоты, с которой нековалентно связывается белок. Примеры белков - репрессор синтеза аргинина
(DQ645366.1) и белок, связывающийся с центромерами
(HQ339400.1).
protein_bind 81..98
/note="putative ARG box"
/bound_moiety="arginine biosynthesis repressor"
protein_bind 163..170
/note="centromere DNA element I; CDEI"
/bound_moiety="centromere-binding protein"
-
regulatory - любой участок последоватльности, регулирующий транскрипцию или трансляцию. К таким регуляторным участкам относят промоторы,
энхансеры (увеличивают степень использования определенного промотора), терминаторы, участки связывания с рибосомами, GC-участки (участки,
богатые нуклеотидами G и C, расположенные в области промоторов эукариотических генов), сигналы CAAT (могут использоваться для связывания
с РНК-полимеразой в клетках эукариот), -35 и -10 сигналы (узнаются РНК-полимеразой в бактериальных клетках), etc. Примеры взяты из различных последовательностей.
regulatory complement(295..299)
/regulatory_class="CAAT_signal"
regulatory 424..429
/regulatory_class="GC_signal"
regulatory 1..381
/regulatory_class="promoter"
regulatory 10..15
/regulatory_class="minus_10_signal"
/note="for distal promoter"
regulatory 61..68
/regulatory_class="minus_35_signal"
/note="for proximal promoter"
regulatory 2872..2886
/regulatory_class="enhancer"
/note="pseudo androgen response element"
-
tmRNA - транспортно-матричная РНК. Эта молекула сначала играет роль тРНК, а затем - роль мРНК, с которой считывается короткий пептид - маркер протеолиза.
Этот маркер присоединяется к C-терминальному концу транслируемого белка и вызывает его расщепление. тмРНК необходимы для того, чтобы прекращать "зависшую"
трансляцию в тех случаях, когда невозможна нормальная терминация трансляции и диссоциация рибосомы на субъединицы. Пример из последовательности
CP010781.1:
tmRNA 983627..983986
/gene="ssrA"
/locus_tag="ABA1_00932"
/product="transfer-messenger RNA, SsrA"
/inference="COORDINATES: profile:Aragorn:1.2"
-
transit_peptide - последовательность, кодирующая N-концевой домен белка, который локализуется в определенной органелле (например, в митохондриях или пластидах)
Этот участвует в доставке данного белка в нужную органеллу. В качестве примеров использованы последовательности, кодирующие митохондриальный белок у крысы
Rattus norvegicus (AJ243266.1) и белок картофеля Solanum tuberosum,
функционирующий в пластидах (AJ240053.1), соответственно.
transit_peptide 6..87
/gene="aco2"
transit_peptide 133..420
/gene="pgm II"
|