Dzha_databanks

Банки нуклеотидных последовательностей

Задание 1. Характеристика качества сборки генома Octopus bimaculoides.


tRNA
Lineage( full )
cellular organisms; Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Mollusca; Cephalopoda; Coleoidea; Neocoleoidea; Octopodiformes; Octopoda; Incirrata; Octopodidae; Octopus

Осьминоги одни из самых интересных организмов в природе. У них имеется три сердца, а также шупальца, каждое из которых имеет собственную нейронную трубку. Кроме того, они обладают самой сложной системой адаптивного камуфляжа - они могут изменять цвет и форму практически мнгновенно!

Геном Калифорнийского двупятнистого осьминога был секвенирован в 2015 году. Он включает в себя примерно 2,7 млрд пар нуклеотидов, 33 000 белок-кодирующих генов. Для сравнения, у человека геном состоит примерно из 3,2 млрд пар нуклеотидов и содержит 20 - 25 тысяч кодирующих генов.

Для данного организма пока есть только одна сборка генома - GCA_001194135.1.

Также имеются 2 связанных между собой проекта: (1) PRJNA270931 и (2) PRJNA305125. Цель данных проектов - проследить эволюцию нервной системы головоногих, устройство морфологических усовершенствований. В этих проектах использовался образец SAMN03271701, взятый из мужской гонады взрослой особи для шотган-секвенирования.


Для единственной имеющейся сборки GCA_001194135.1.:

Задание 2. Описание ключей.

GenBank, EMBL и DDBJ разработали общие стандарты для формата аннтоаций. Ключевой задачей Feature Tables, так называемых таблиц особенностей, помимо непосредственно предоставляемого описания, является также возможность быстрого и удобного оперирования данными.

Спектр особенностей, описываемых в этих таблицах, очень широк и включает участки, которые:

Общий синтаксис таблиц особенностей:

	Key             Location/Qualifiers
	CDS             23..400
	                /product="alcohol dehydrogenase" 
	                /gene="adhI"

Key — ключ;
Location — расположение в последовательности;
Qualifiers — классификаторы с конкретными дополнительными деталями (для каждого ключа — свои, причём имеются как обязательные, так и необязательные).

Задание заключалось в описании десяти выбранных ключей, используемых в таблицах особенностей. Данные представлены в табл.1

Ключи были найдены на сайте INCDC по самой нижней ссылке на странице (ссылка ведет сюда, нужная информация в разделе Appendix II).


Таблица 1. Описание ключей таблиц особенностей
Ключ Описание Пример
regulatory Любой участок ДНК, который принимает участие в регуляции транскрипции или трансляции.
regulatory      56..235
                /regulatory_class="enhancer"
                /gene="prolactin"
CDS Кодирующая последовательность. Последовательность нуклеотидов, соответствующая последовательности аминокислот белка. Ключ включает последовательность белка, транслированного с последовательности нуклеотидов.
CDS             109..717
                /gene="sod"
                /EC_number="1.15.1.1"
                /codon_start=1
                /transl_table=11
                /product="superoxide dismutase"
                /db_xref="GOA:P28763"
                /db_xref="HSSP:P00448"
                /db_xref="InterPro:IPR001189"
                /db_xref="UniProtKB/Swiss-Prot:P28763"
                /protein_id="CAA45406.1"
                /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVS
                GHAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLK
                AAIESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPV
                LGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"
D-loop Петля сдвига. Короткая цепочка РНК, спаренная с цепочкой ДНК, для замещения оригинального партнёра ДНК. Также употребляется для описания реакции замещения одной цепочки ДНК в двухцепочечной молекуле на другую цепочку, катализируемой белком RecA.
D-loop          15654..16529
                /note="control region"
repeat_region Участок генома, состоящий из повторов.
repeat_region   112..138
                /rpt_type=tandem
                /rpt_unit_seq="ctt"
                /satellite="microsatellite:Gacu13"
S_region Участок переключения тяжёлых цепей имммуноглобулина. Вовлечён в перестройку тяжёлых цепей иммуноглобулина, чтобы тот же самый B-лимфоцит производил другой класс иммуноглобулинов.
S_region        1..63
stem_loop Двуцепочечный регион сформированный спаренными комплементарными цепочками ДНК и РНК .
stem_loop       15606..16092
                /inference="ab initio prediction:secondary structure"
source Указывает на биологический источник участка генетического материала определённой протяжённости. Этот ключ является обязательным; допускается более чем одна инстанция этого ключа на одну последовательность.
source          1..8102
                /organism="Babesia bovis"
                /mol_type="genomic DNA"
                /db_xref="taxon:5865"
                /clone="Segment601"
                /transgenic
STS Тэгированный сайт последовательности; единственная копия короткой последовательности ДНК, которая характеризует landmark разметки генома и может быть обнаружена с помощью ПЦР. Участок генома может быть размечен с помощью определения порядка STS.
STS             679..1734
                /gene="Itih4"
                /gene_synonym="ITI-HC4; Itih-4; PK-120"
                /standard_name="Itih4"
                /db_xref="UniSTS:265229"
tmRNA Транспортно-матричная РНК; тмРНК работает сначала как тРНК, а потом как мРНК, которая кодирует пептидный тэг; рибосома транслирует этот участок мРНК и прикрепляет пептидный тэг к C-концу незаконченного белка; этот присоединённый тэг делает белок целью разрушения или протеолиза.
tmRNA           complement(730702..731042)
                /locus_tag="Asbog_00659"
                /product="tmRNA"
                /inference="COORDINATES: profile:ARAGORN:1.2.28"
3'UTR 1)Участок ДНК на 3'-конце зрелого транскрипта после стоп-кодона, который не транслируется в белок.
2)Участок на 3'-конце генома РНК-вируса после последнего стоп-кодона, который не транслируется в белок
3'UTR           15631..15717

Задание 3. Массовый геномный проект.


Для того чтобы исследовать генетические механизмы, влияющие на развитие эпилепсии у большинства людей, в 2010 году при финансировании от NINHS (National Institute of Neurological Disorders and Stroke) был создан так называемый "Center without Walls" и запланировано исследование Epi4K, имевшее своей целью отсеквенировать и проанализировать геномы и фенотипы 4000 больных людей[3].

В команде проекта участвовало более 60 учёных с трёх континентов (Северная Америка, Евразия, Австралия).

К маю 2013 года в исследованиях приняли участие 4199 людей. Цель достигнута. Но исследования в указанной области всё ещё продолжаются.

Сайт проекта доступен по ссылке

Ссылка на последнюю публикацию: здесь

Задание 4. Митохондриальные гены одного из организмов указаного таксона.

Для нахождения полных митохондриальных геномов таксона Apusozoa был использован запрос:

"Apusozoa"[Organism] AND ("complete genome"[title] OR "complete sequence"[title]) AND mitochondrion[title]

Всего было найдено 2 полных митохондриальных генома: один из RefSeq, другой из GenBank.

Для организма Thecamonas trahens имеется полный митохондриальный геном (скачать xlsx).