Мной был выбран геном Taeniopygia guttata (Зебрового амадина). Этих птиц из семейства Вьюрковых ткачиков часто разводят дома. Геном зебрового амадина стал вторым отсеквенированным геномом птицы (после курицы) вероятно из-за их неприхотливости и быстрого полового созревания - важнейших качеств модельного организма. Картинку из Википедии можно посмотреть по ссылке.
С помощью данных из базы NCBI была составлена таблица 1 с характеристикой самой лучшей из 7 сборок генома.
Название сборки | bTaeGut1_v1.p |
AC сборки из RefSeq | GCF_003957565.1 |
"Уровень" сборки | Chromosome |
Общая длина последовательности | 1,058,012,133 |
Число контигов | 444 |
N50 для контигов | 11,998,827 |
Контиг L50 | 22 |
Число cкэффолдов | 135 |
N50 для cкэффолдов | 70,430,603 |
Скэффолд L50 | 6 |
Число аннотированных белков | 43951 |
Также была получена ссылка на 1 из публикаций со страницы BioProject NCBI. Cсылка на один из контигов в формате fasta была скачана через WGS master со страницы сборки bTaeGut1_v1.p.
Поиск был произведен по Nucleotide на сайте NCBI с помощью advanced search. Текст запроса состоял из названия организма и длины последовательности: "((Inoviridae[Organism]) AND 4000:5000[Sequence Length]) AND complete genome". Всего было найдено 12 подходящих геномов. Из них к GenBank относились 10 последовательностей, а к RefSeq всего лишь 2. Информация об этом была получена из колонки "Source databases". Затем был выбран геном вируса Acholeplasma phage MV-L1 и по нему была сделана таблица 2.
AC нуклеотидной записи | NC_001341.1 |
Латинское название / TaxID вида | Acholeplasma phage MV-L1 / TaxID:2170098 |
Тип генома | ss-DNA, circular |
Хозяин вируса | Бактерия рода Acholeplasma (Acholeplasma laidlawii) |
Также был получен файл с предположительно кодирующими последовательностями CDS (Send to: -> coding sequences -> format: FASTA Nucleotide).
На сайте INSDC.org был рассмотрен feature table document, в котором находилась необходимая информация по ключам. Некоторые из ключей рассмотрены в таблице 3.
Название ключа | Описание | Пример из файла |
mat_peptide | Участок последовательности, кодирующий зрелый или финальный пептид или белковый продукт, образовавшийся после посттрансляционной модификации (не включает в себя стоп-кодон). |
mat_peptide 55..399 /gene="TCR1A" /product="T-cell receptor alpha chain" |
misc_feature | Участок, представляющий биологический интерес, но который нельзя описать никаким из ключей. Новая или редкая особенность. |
misc_feature complement(36618..36631) /locus_tag="NEQ_t38" /note="sequence cleaved during processing of trans-spliced tRNAs" |
rep_origin | Ориджин репликации. | rep_origin 3650..3750 |
regulatory | Любой участок последовательности, отвечающий за регуляцию транскрипции, трансляции, репликации или структуры хроматина. | regulatory 3106..3112 /regulatory_class="TATA_box" /locus_tag="L1_3" |
D-loop | Замещенная петля или D-петля - область митохондриальной ДНК, в которой небольшой участок РНК взаимодействует с одной из цепей ДНК, вытесняя исходную комплементарную цепь с образованием петлеообразной структуры. |
D-loop complement(join(16024..16569,1..576)) |
STS | ДНК-маркирующий сайт (уникальная для данного локуса олигонуклеотидная последовательность, которая может быть использована для его идентификации методом ПЦР. |
STS 2712..2884 /gene="RNR2" /gene_synonym="MTRNR2" /standard_name="NIB250" /db_xref="UniSTS:56529" |
repeat_region | Часть последовательности, содержащая повторяющиеся участки. | repeat_region 80..401 /rpt_type=DISPERSED /rpt_family="Alu-J" |