Практикум 5.

Банки нуклеотидных последовательностей

Качество сборки генома эукариотического организма

Для выполнения этого практикума я решила изучить качество сборки генома зебровой амадины (Taeniopygia guttata), так как, во-первых, мне нравятся птички, во-вторых, эта амадина является популярным модельным организмом.
Taeniopygia guttata (зебровая амадина)
Маленькая певчая птичка семейства вьюрковых ткачиков, обитающая в Австралии и разводимая в неволе.
Интересный факт: у зебровых амадин наследуется только определенный звуковой сценарий песен - в какие моменты должна быть тишина и ее продолжительность, а звуковому наполнению птенцы учатся у своих родителей.
Рис.1 Зебровая амадина. См. источник
Zebra Finch
Из 7 сборок я выбрала одну лучшую bTaeGut1_v1.p (не новейшая и не самая длинная сборка, но с наибольшим покрытием и с определенным количеством участков, кодирующих белки) и по ней составила следующую таблицу.
Таблица 1. Характеристика качества сборки генома bTaeGut1_v1.p.
Название (assembly name) bTaeGut1_v1.p
AC сборки из RefSeq GCF_003957565.1
Уровень сборки (Assembly level) Chromosome
общая длина последовательности (b) 1058012133
Число контигов (contigs) 444
Contig N50 11998827
Contig L50 22
Число скэффолдов (scaffolds) 135
Scaffold N50 70430603
Scaffold L50 6
Число аннотированных белков 43951
Вы можете посмотреть последовательность одного из контигов в RefSeq.

Поиск последовательности CDS прокариотического вируса

В этом задании у меня были ограничения на поиск вирусов: семейство Siphoviridae и длина генома 70000-80000.
Поиск производился по Nucleotide на сайте NCBI через Advanced search (текст запроса:"((Siphoviridae) AND 70000:80000[Sequence Length]) AND complete"). В итоге, согласно разделу Source databases, нашлось 250 последовательностей из GenBank и 84 из RefSeq. Я выбрала геном Mycobacteriophage Wildcat и по нему составила таблицу 2. Вы можете посмотреть файл, с участками генома, предположительно кодирующими белки (CDS) (файл был получен через Send to: -> coding sequences -> format: FASTA Nucleotide).
Таблица 2.Описание генома вируса
AC нуклеотидной записи NC_008206.2
Латинское название
TaxID вида
Mycobacterium phage Wildcat
1993859
Тип генома Линейная двуцепочечная ДНК
Хозяина вируса Bacteria: Mycobacterium и Corynebacteriales

Ключи, используемые в таблицах особенностей.

Описание я искала на сайте INSDC. Была составлена таблица 3 с семью ключами, описанием и примерами к ним.
Таблица 3.Описание ключей
Название ключа Описание Пример
D-loop Замещенная петля или D-петля - область митохондриальной ДНК, в которой небольшой участок РНК взаимодействует с одной из цепей ДНК, вытесняя исходную комплементарную цепь с образованием петлеообразной структуры.
D-loop          15706..18139
exon Обозначает область экзона
exon            19248..19550
                     /gene="titin"
                     /note="differentially spliced in different muscle tissues"
                     /number=5
intron Обозначает интрон.
intron          13..5222
                     /number=2
mat_peptide Зрелый пептид или кодирующая последовательность белка; кодирующая последовательность для зрелого или конечного пептида, претерпевающего пост-трансляционную модификацию; расположение не включает стоп-кодон (в отличие от соответствующих CDS)
mat_peptide     55..399
                /gene="TCR1A"
                /product="T-cell receptor alpha chain"
operon Область, включающая кластер генов,кодирующих совместно или последовательно работающие белки и объединенные под одним промоторами.
operon          160..6865
                /operon="gal"
regulatory Любой участок последовательности, который участвует в регуляции транскрипции, трансляции, репликации или хроматиновой структуре
regulatory      <1..9
                /gene="ubc42"
                /regulatory_class="promoter"