Банки нуклеотидных последовательностей

Качество сборки генома

В этом пункте практикума была охарактеризована сборка генома многоклеточного эукариота, полученная из NCBI Genome.
Я выбрал земноводное вида Rana catesbeiana (лягушка-бык). Лягушка-бык является один из самых крупных видов в семействе лягушек.
Обитает в пресных водоёмах в по всей территории Северной Америки. Питается всем, что может одолеть и проглотить (маленькими млекопитающими, некоторыми беспозвоночными и даже ляшушками своего вида).
В США и Канаде данный вид лягушек разводят с целью употребления в пищу (фермы лягушек).
мое фото
Ссылка на источник. К сожалению, пока что существует всего лишь одна доступная сборка.
Название сборки RCv2.1
AC из GenBank GCA_002284835.2
Уровень сборки Scaffold
Общая длина 6,250,353,185
Число контигов 2,124,505
Число скэффолдов 1,544,635
N50 для контигов 5,415
L50 для контигов 256,280
N50 для скэффолдов 39,363
L50 для скэффолдов 31,248
Число аннотированных белков 28758
Ссылка на описание проекта.
Ссылка на один из файлов с контигом.

Скачивание последовательности CDS прокариотического вируса

Во втором задании нужно было получить список полных геномов Pleolipoviridae длиной от 10000 до 20000 пар оснований.
Запрос, применённый в NCBI Nucleotide:
Pleolipoviridae[Organism] AND complete[All Fields] AND genome[All Fields] AND "10000"[Sequence Length] : "20000"[Sequence Length]
Находок в GenBank оказалось 5, а в RefSeq — 2, что видно в левом меню на странице с результатами поиска. Для подробной характеристики я выбрал вирус Haloarcula hispanica pleomorphic virus 4.
Характеристика генома Haloarcula hispanica pleomorphic virus 4
AC записиKY264020.1
Латинское название
вида
Haloarcula hispanica pleomorphic virus 4
Taxonomy ID вида1980140
Тип геномакольцевая ds-DNA
Хозяин вирусабактерия рода Haloarcula
Чтобы получить файл с CDS, я нажал по на Send to > Coding Sequences > FASTA (Nucleotide) > Create File на странице NCBI с записью о геноме.

Ключи из таблиц особенностей

Ключ Значение Пример
CDS кодирующая последовательность
FEATURE         Location/Qualifiers            
 CDS            23..400
                /product="alcohol dehydrogenase" 
                /gene="adhI"
              
Последовательность 23..400 имеет своим продуктом алкогольдегидрогеназу и кодируется геном "adhI". Ключ координат кодирующей последовательности гена, которая соответствует аминокислотной последовательности в белке. Спецификаторы этого ключа часто указывают на название гена, кодируемого белка, его функции и др.
mRNA информационная РНК
FEATURE         Location/Qualifiers
mRNA                join(10..567,789..1320)
                /gene="ubc42"
Информационная РНК, включающая нетранслируемый 5' участок (5'UTR), кодирующие участки (CDS, exon) и 3' нетранслируемый участок (3'UTR);
tRNA зрелая транспортная РНК
FEATURE         Location/Qualifiers
tRNA            655..730  
                /gene="tRNA-Leu(UUR)"
                /anticodon=(pos:678..680,aa:Leu,seq:taa)
                /product="transfer RNA-Leu(UUR)"
Ключ, содержащий координаты кодирующей тРНК последовательности. Обычно в ключе указывается позиция антикодона в этой последовательности и аминокислота, которую несет конкретная тРНК.
regulatory любой участок последовательности,
принимающий участие в транскрипции,
трансляции, рипликации или упаковке хроматина.
FEATURE         Location/Qualifiers
regulatory      <1..9
                /gene="ubc42"
                /regulatory_class="promoter"
Ключ - идентификатор участков последовательности, вовлеченных в регуляцию транскрипции или трансляции. Обязательный спецификатор: /regulatory_class="TYPE".
source биологический источник образца
FEATURES        Location/Qualifiers
source          1..574052
                /organism="Cynoglossus semilaevis"
                /mol_type="genomic DNA"
                /isolate="Cse_v1.0"
                /db_xref="taxon:244447"
                /chromosome="6"
                /tissue_type="blood"
                /country="China"
                /collection_date="Sep-2009"
Source -обязательный ключ.
В классификаторах этого ключа содержится информация о получении образца (где, как, когда и т.д.)
V_region участки легких и тяжелых цепей иммуноглобулинов
FEATURES        Location/Qualifiers                					
V_region        1..277
                /gene="VFM1"
                /product="immunoglobulin heavy chain variable region" 
Вариабельные участки легких и тяжелых цепей иммуноглобулинов, α, β и γ-цепей Т-клеточных рецепторов.
sig_peptid кодирующая последовательность сигнального пептида
FEATURES        Location/Qualifiers                					
sig_peptide      1..54
                /gene="TCR1A" 
Указывает координаты кодирующей последовательности сигнального пептида.