Практикум 7. Банки нуклеотидных последовательностей

1. "Настала пора подойти поближе к полосатику" (или качество сборки генома эукариотического организма)

Синий полосатик (синий кит), Balaenoptera musculus, сем. Полосатиковые.
Самое большое современное животное, возможно, и вовсе самое крупное из всех когда-либо существовавших.
Носит охранный статус EN (вымирающий вид), за это спасибо китобоям. А полосатикам и Жюлю Верну спасибо за замечательный роман.
Cборок генома 1 штука.

источник
кит полосатик

Таблица 1. Лучшая геномная сборка
Название mBalMus1
AC сборки из GenBank GCA_008658375.1
Assembly level Contig
Общая длина последовательности (Mb) 1876.09
Число скэффолдов 12,574
Scaffold N50 --
Scaffold L50 --
Число контигов 12,574
Contig N50 270,330
Contig L50 2,122
Число аннотированных белков --
Ссылка на публикацию с описанием проекта Comparison between the complete mtDNA sequences of the blue and the fin whale, two species that can hybridize in nature
Ссылка на последовательность одного из контигов в формате .fasta (файл на kodomo) "whole genome shotgun" -> "WGS" -> VNFD01000001.1

2. Вирус прокариот

Таблица 2. Вирус прокариот
Поиск "((((((Microviridae[Organism]) AND Complete genome) AND 6000:7000[Sequence Length])))) AND (RefSeq OR GenBank)" - поиск в NCBI Nucleotide с помощью кнопки Advance
Сколько находок в GenBank и RefSeq 243 находки, из них 227 - GenBank и 16 - RefSeq
AC записи (GenBank) MK629527.1
Lat название и TaxID вида Escherichia phage Lilleven, 2562234
Тип генома DNA, линейный
Хозяин вируса Бактерия Escherichia coli штамм MG1655 K12
Ссылка на файл .fasta с участками генома, предположительно кодирующими белки (CDS) Скачать файл ("Send to" -> "Coding Sequences" -> "FASTA Nucleotide" -> "Create File")



3. Ключи в таблицах особенностей

Спонсор таблицы - "The DDBJ/ENA/GenBank Feature Table Definition" на сайте INSDC.
Таблица 3. Ключи в таблицах особенностей
Ключ Описание Пример использования Еще какие-то слова
misc_recomb сайт любого обобщенного, сайт-специфического или репликативного события рекомбинации, где произошла поломка и воссоединение дуплексной ДНК, которое не может быть описано с помощью других ключей рекомбинации
misc_recomb     265^266 
/note="duplication breakpoint"
запись MN435619.1
modified_base данный нуклеотид модифицирован и должен быть заменен указанной молекулой (в случае приведенного примера - a/c/g/t)
modified_base   (773)..(773)
                /note='a, c, g, or t'
запись LV489174.1
oriT область молекулы ДНК, где инициируется перенос в процессе конъюгации и мобилизации
oriT            105547..105870
                /note="oriT region"
запись MK430046.1
transit_peptide координаты последовательности, кодирующей транзитный пептид; кодирующая последовательность для N-концевого домена закодированных в ядре белков органелл; этот домен участвует в посттрансляционном включении белка в органеллу
transit_peptide 210..261
запись Y08567.1
ncRNA ген, не кодирующий белок; не такой, как рРНК и тРНК, функциональной молекулой которого является рнк-транскрипт
ncRNA           complement(5108..5215)
                /ncRNA_class="antisense_RNA"
                /gene="rprA"
                /locus_tag="GDB59_RS16125"
                /product="antisense sRNA RprA"
                /inference="COORDINATES: nucleotide
                motif:Rfam:12.0:RF00034"
                /inference="COORDINATES: profile:INFERNAL:1.1.1"
                /note="Derived by automated computational analysis using
                gene prediction method: cmsearch."
                /db_xref="RFAM:RF00034"
запись NZ_CABWGJ010000080.1
primer_bind нековалентный сайт связывания с праймером для инициации репликации, транскрипции или обратной транскрипции; это может быть сайт для синтетических праймеров (например, задизайненных для ПЦР)
 primer_bind     34..54
                /note="forward_primer"
                /PCR_conditions="denaturation 94degC 2 min; 35 cycles
                94degC 1 min, 55degC 1 min, 72degC 1 min; final extention
                72degC 3 min"
запись LC430018.1
rep_origin ориджин - точка начала репликации, стартовый сайт дупликации нуклеиновой кислоты для получения идентичных копий
rep_origin      5897..5931
                /note="light strand origin of replication"
запись MK166027.1