Банки нуклеотидных последовательностей

Для выполнения первого задания практикума, в котором нужно было охарактеризовать качество сборки генома эукариотического организма, я выбрала Danio rerio (англ. zebrafish). Это тропическая пресноводная рыба (рисунок 1), в природе она обитает в реках северной Индии, Пакистана, Непала и Бутана. Danio rerio используют в качестве модельного объекта, например, для исследований в области биологии развития, поэтому геном этого организма достаточно хорошо изучен.

Danio rerio

Рисунок 1. Danio rerio, класс Actinopterygii, отряд Cypriniformes, семейство Cyprinidae.

В базе данных NCBI Genome для Danio rerio указаны 2 сборки генома: GRCz10 (GenBank assembly GCA_000002035.3) и WGS31 (GenBank assembly GCA_000767325.1). Для первой сборки использовался образец SAMN03020626, для второй - SAMEA3146315. Оба образца получены из линии Tuebingen (дикий тип). При этом обе сборки относятся к одному проекту по секвенированию данного организма, PRJNA11776. Для дальнейшей работы я выбрала более полную сборку - GRCz10.
Для этой сборки в качестве образца использовался набор из семи отдельных образцов, которые имеют собственные BioSample ID: SAMN03014687-SAMN03014693. Ссылка на BioSample ID для всей группы: SAMN03020626.
Проект по секвенированию генома Danio rerio, PRJNA11776, был начат в 2001 году в Институте Сэнгера (The Wellcome Trust Sanger Institute). Предыдущий WGS проект - WGS31, представляет сборку генома, полученную при использовании метода Illumina и прочтения по Сэнгеру. Он был заменен новым проектом, в котором удалены многие гэпы и определено положение ранее нелокализованных участков генома. Сейчас секвенирование производится группой GRC (Genome Reference Consortium).

В таблице 1 представлена информация о числе контигов и скэффолдов сборки. В данный момент сборка GRCz10 находится на уровне хромосом (Assembly level: Chromosome). Это значит, что уже известно, какие именно последовательности составляют отдельные хромосомы.

Таблица 1. Информация о числе контигов и скэффолдов в сборке GRCz10 (GenBank assembly GCA_000002035.3) и о качестве сборки.
Общая длина последовательности 1,371,719,383
Число скэффолдов 3,399
N50 для скэффолдов 2,181,225
L50 для скэффолдов 153
Число контигов 22,852
N50 для контигов 1,258,148
L50 для контигов 252
Общее число хромосом (+ мтДНК) 26

Для данной сборки не указан WGS проект, поэтому я использовала проект CABZ01 для другой сборки генома Danio rerio. По данной ссылке доступна таблица всех контигов для сборки WGS31. Всего их 119,119, их общая длина 1,400,912,823 п.о. В таблице представлены контиги по 50 штук на лист, отсортированы по названию. Вся таблица в формате .txt доступна по ссылке, далее этот файл можно импортировать в Excel. Самый длинный контиг имеет длину 215,016 п.о. (CABZ01060317), самые короткие длиной 501 нуклеотид (CABZ01021198, CABZ01083106 и CABZ01088203). Для данной сборки N50 для контигов 24,925; L50 для контигов 16,539.
По следующей ссылке доступна последовательность одного из контигов, CABZ01000014, в формате fasta.

В следующем задании надо было составить таблицу митохондриальных генов мха Oxystegus tenuirostris (синоним Trichostomum tenuirostre). Этот мох (рисунок 2) растет на влажных камнях или на корнях деревьев рядом с ручьями и другими водными потоками.

Oxystegus tenuirostris

Рисунок 1. Oxystegus tenuirostris, класс Bryopsida, порядок Pottiales, семейство Pottiaceae.

Для того, чтобы найти в базе данных NCBI Nucleotide необходимые гены, я использовала запрос (Oxystegus tenuirostris[ORGN] gene_in_mitochondrion[PROP] complete genome[TI]). По данному запросу был найден полный митохондриальный геном длиной 105,001 п.о. (RefSeq NC_028040.1). Всего в митохондриальном геноме закодировано 66 генов, из них 27 кодируют различные тРНК (24) и рРНК (3), а остальные 39 - белки. В таблице представлен список всех генов, отсортированный по началу в геноме.

Для описания ключей, используемых в таблицах особенностей, я нашла страницу, посвященную полю FT (feature table) на сайте EBI (ссылка на эту страницу).
Список некоторых ключей с описаниями и примерами:

  1. LTR - long terminal repeats - длинные концевые повторы. Это последовательности ДНК, повторенные множество раз, которые фланкируют определенные гены. Они обычно встречаются в геномной ДНК ретровирусов и в ретротранспозонах и используются вирусами для того, чтобы встроить свой геном в геном зараженной клетки.
  2. Пример из последовательности ретротранспозона ели Picea abies (AJ243316.1):
    FT    LTR    	75..>249
    FT  		/gene="3' long terminal repeat"
    FT 		/experiment="experimental evidence, no additional details
    FT  		recorded"
    								
  3. misc_binding - участок нуклеиновой кислоты, который ковалентно или нековалентно связывается с некоторой молекулой, не являющейся белком или праймером. Пример из последовательности NZ_JMKR01000002.1 (связывание с флавинмононуклеотидом):
    misc_binding    76303..76465
    		/note="FMN riboswitch; Derived by automated computational
    		analysis using gene prediction method: cmsearch."
    		/bound_moiety="flavin mononucleotide"
    								
  4. mobile_element - участок генома, содержащий подвижные элементы. Пример взят из последовательности полного генома вируса архей (NC_014321.1), мобильный элемент - транспозон.
    mobile_element  <7306..>8933
    		/mobile_element_type="transposon:ISDka2"
    								
  5. modified_base - указанный нуклеотид является модифицированным, модификация указана в квалификаторе "mod_base". Пример - аденин, метилированный в положении 2.
    modified_base   38
    		/mod_base=m2a
    								
  6. ncRNA - ген некодирующей РНК (нкРНК). Пример из JWVC03000036.1, нкРНК - рибозим типа hammerhead (его структура по форме напоминает головку молотка).
    ncRNA           31724..31792
    		/ncRNA_class="hammerhead_ribozyme"
    		/locus_tag="RQ80_19245"
    		/product="hammerhead ribozyme type II"
    		/note="Derived by automated computational analysis using
    		gene prediction method: cmsearch."
    								
  7. operon - оперон - участок, с которого получается полицистронный транскрипт; кластер генов, находящихся под контролем одного промотора и одних регуляторных последовательностей, продукты которых участвуют в одном биологическом пути. Опероны встречаются в геномах бактерий. Например, оперон для синтеза сурфактина из Bacillus subtilis (CP007409.1):
    operon          364979..391127
    		/operon="Surfactin synthesis cluster"
    								
  8. protein_binding - участок нуклеиновой кислоты, с которой нековалентно связывается белок. Примеры белков - репрессор синтеза аргинина (DQ645366.1) и белок, связывающийся с центромерами (HQ339400.1).
    protein_bind    81..98
    		/note="putative ARG box"
    		/bound_moiety="arginine biosynthesis repressor"
    								
    protein_bind 163..170 /note="centromere DNA element I; CDEI" /bound_moiety="centromere-binding protein"
  9. regulatory - любой участок последоватльности, регулирующий транскрипцию или трансляцию. К таким регуляторным участкам относят промоторы, энхансеры (увеличивают степень использования определенного промотора), терминаторы, участки связывания с рибосомами, GC-участки (участки, богатые нуклеотидами G и C, расположенные в области промоторов эукариотических генов), сигналы CAAT (могут использоваться для связывания с РНК-полимеразой в клетках эукариот), -35 и -10 сигналы (узнаются РНК-полимеразой в бактериальных клетках), etc. Примеры взяты из различных последовательностей.
    regulatory      complement(295..299)
    		/regulatory_class="CAAT_signal"
    								
    regulatory 424..429 /regulatory_class="GC_signal"
    regulatory 1..381 /regulatory_class="promoter"
    regulatory 10..15 /regulatory_class="minus_10_signal" /note="for distal promoter" regulatory 61..68 /regulatory_class="minus_35_signal" /note="for proximal promoter"
    regulatory 2872..2886 /regulatory_class="enhancer" /note="pseudo androgen response element"
  10. tmRNA - транспортно-матричная РНК. Эта молекула сначала играет роль тРНК, а затем - роль мРНК, с которой считывается короткий пептид - маркер протеолиза. Этот маркер присоединяется к C-терминальному концу транслируемого белка и вызывает его расщепление. тмРНК необходимы для того, чтобы прекращать "зависшую" трансляцию в тех случаях, когда невозможна нормальная терминация трансляции и диссоциация рибосомы на субъединицы. Пример из последовательности CP010781.1:
    tmRNA           983627..983986
    		/gene="ssrA"
    		/locus_tag="ABA1_00932"
    		/product="transfer-messenger RNA, SsrA"
    		/inference="COORDINATES: profile:Aragorn:1.2"
    								
  11. transit_peptide - последовательность, кодирующая N-концевой домен белка, который локализуется в определенной органелле (например, в митохондриях или пластидах) Этот участвует в доставке данного белка в нужную органеллу. В качестве примеров использованы последовательности, кодирующие митохондриальный белок у крысы Rattus norvegicus (AJ243266.1) и белок картофеля Solanum tuberosum, функционирующий в пластидах (AJ240053.1), соответственно.
    transit_peptide 6..87
    		/gene="aco2"
    								
    transit_peptide 133..420 /gene="pgm II"

© Наталия Кашко, 2015