Банки нуклеотидных последовательностей

Характеристика сборки генома эукариотического организма

Мной был выбран геном Taeniopygia guttata (Зебрового амадина). Этих птиц из семейства Вьюрковых ткачиков часто разводят дома. Геном зебрового амадина стал вторым отсеквенированным геномом птицы (после курицы) вероятно из-за их неприхотливости и быстрого полового созревания - важнейших качеств модельного организма. Картинку из Википедии можно посмотреть по ссылке.

С помощью данных из базы NCBI была составлена таблица 1 с характеристикой самой лучшей из 7 сборок генома.

Таблица 1. Характеристика сборки генома bTaeGut1_v1.p зебрового амадина
Название сборки bTaeGut1_v1.p
AC сборки из RefSeq GCF_003957565.1
"Уровень" сборки Chromosome
Общая длина последовательности 1,058,012,133
Число контигов 444
N50 для контигов 11,998,827
Контиг L50 22
Число cкэффолдов 135
N50 для cкэффолдов 70,430,603
Скэффолд L50 6
Число аннотированных белков 43951

Также была получена ссылка на 1 из публикаций со страницы BioProject NCBI. Cсылка на один из контигов в формате fasta была скачана через WGS master со страницы сборки bTaeGut1_v1.p.

Получение последовательности CDS одного из прокариотических вирусов

Поиск был произведен по Nucleotide на сайте NCBI с помощью advanced search. Текст запроса состоял из названия организма и длины последовательности: "((Inoviridae[Organism]) AND 4000:5000[Sequence Length]) AND complete genome". Всего было найдено 12 подходящих геномов. Из них к GenBank относились 10 последовательностей, а к RefSeq всего лишь 2. Информация об этом была получена из колонки "Source databases". Затем был выбран геном вируса Acholeplasma phage MV-L1 и по нему была сделана таблица 2.

Таблица 2. Характеристика генома вируса Acholeplasma phage MV-L1
AC нуклеотидной записи NC_001341.1
Латинское название / TaxID вида Acholeplasma phage MV-L1 / TaxID:2170098
Тип генома ss-DNA, circular
Хозяин вируса Бактерия рода Acholeplasma (Acholeplasma laidlawii)

Также был получен файл с предположительно кодирующими последовательностями CDS (Send to: -> coding sequences -> format: FASTA Nucleotide).

Описание ключей из таблицы особенностей

На сайте INSDC.org был рассмотрен feature table document, в котором находилась необходимая информация по ключам. Некоторые из ключей рассмотрены в таблице 3.

Таблица 3. Ключи и их описание
Название ключа Описание Пример из файла
mat_peptide Участок последовательности, кодирующий зрелый или финальный пептид или белковый продукт,
образовавшийся после посттрансляционной модификации (не включает в себя стоп-кодон).
mat_peptide     55..399
                /gene="TCR1A"
                /product="T-cell receptor alpha chain" 
misc_feature Участок, представляющий биологический интерес, но который нельзя описать никаким из ключей.
Новая или редкая особенность.
misc_feature    complement(36618..36631)
                /locus_tag="NEQ_t38"
                /note="sequence cleaved during processing of trans-spliced tRNAs" 
rep_origin Ориджин репликации.
rep_origin      3650..3750
regulatory Любой участок последовательности, отвечающий за регуляцию транскрипции, трансляции, репликации или структуры хроматина.
regulatory      3106..3112
                /regulatory_class="TATA_box"
                /locus_tag="L1_3" 
D-loop Замещенная петля или D-петля - область митохондриальной ДНК,
в которой небольшой участок РНК взаимодействует с одной из цепей ДНК,
вытесняя исходную комплементарную цепь с образованием петлеообразной структуры.
D-loop          complement(join(16024..16569,1..576)) 
STS ДНК-маркирующий сайт (уникальная для данного локуса олигонуклеотидная последовательность,
которая может быть использована для его идентификации методом ПЦР.
STS             2712..2884
                /gene="RNR2"
                /gene_synonym="MTRNR2"
                /standard_name="NIB250"
                /db_xref="UniSTS:56529" 
repeat_region Часть последовательности, содержащая повторяющиеся участки.
repeat_region   80..401
                /rpt_type=DISPERSED
                /rpt_family="Alu-J" 

Назад
На главную