Нуклеотидные банки последовательностей

Задание 1. Качество сборки генома эукариотического организма

Для описания сборки генома была выбрана Мексиканская Амбистома (Аксолотль), Ambystoma mexicanum, вид хвостатых земноводных из семейства амбистомовых. Сейчас, если верить Википедии, сохранилась популяция лишь в одном озере, хотя не так давно они обитали в нескольких озёрах Центральной Мексики.Взрослая особь достигает примено 30 см в длину и имеет голубовато-черную окраску.Картинка взята вот отсюда. Примечателен вид тем, что его личинки способны к неотении - размножению до метаморфоза и превращения во взрослую форму. В личиночной стадии аксолотль способен существовать довольно долго. Песенка про аксолотля (на случай, если мои попытки прикрепить само видео не увенчаются успехом). Является модельным организмом для изучения биологии развития и регенерации (оно ещё и регенерирует). Сборок генома в базе NCBI Genome всего две, одна датирована ноябрём 2015 и проведена на уровне скаффолдов, вторая февралём 2018 на хромосомном уровне.
axolotl
Название лучшей сборки: ASM291563v2
AC (GenBank): GCA_002915635.2
Уровень сборки: Chromosome
Общая длина последовательности: 32,396,370,977 (длина без гэпов 28,366,697,997)
Число скэффолдов: 98,070
Число контигов: 891,205
N50 для скэффолдов: 1,412,624,359
L50 для скэффолдов: 11
N50 для контигов: 216,366
L50 для скэффолдов: 35,791
Чиcло аннотированных белков: их вообще нет, в том числе и для более ранней сборки
Публикация с описанием проекта: вот тут
Последовательность контига: Для организма доступны либо огромные (больше 1 000 000 000 оснований) скэффолды, либо последовательность последнего контига, скачанная с NCBI Nucleotide

Задание 2

Для выполнения задания нужно было скачать последовательности CDS для прокариотического вируса. Поиск проводился в базе NCBI Nucleotide, в поле Advanced Search. Текст запроса: (Myoviridae[Organism]) AND "complete genome" AND (40000:50000[Sequence Length]). 158 находок в GenBank, 66 находок в RefSeq (указано в левой колонке в поле Source Databases.
AC нуклеотидной записи: NC_028883
Латинское название и TaxID вида: Clostridium phage phiMMP01 1582156
Тип генома: DNA linear ds
Хозяин вируса: бактерии из рода Clostridium
fasta-файл с coding sequences организма был получен путём Send to: > Coding Sequences > FASTA Nucleotide.

Задание 3. Описание ключей в таблицах особенностей

Информация получена из документации на сайте INSDC
Ключ 1
C_region
Используется в описании сборок эукариотических организмов. Невариабельный участок цепей иммуноглобулинов и рецепторов Т-клеток. Пример использования (NW_011215793):

     C_region        join(<4432..4738,5463..5768,8637..8887)
                     /gene="LOC104917070"
                     /standard_name="Ig mu chain C region-like"
                     /note="Derived by automated computational analysis using
                     gene prediction method: Gnomon. Supporting evidence
                     includes similarity to: 2 Proteins, and 100% coverage of
                     the annotated genomic feature by RNAseq alignments,
                     including 116 samples with support for all annotated
                     introns"
                     /db_xref="GeneID:104917070"

Ключ 2
iDNA
Интерферирующая ДНК, удаляемая в процессе рекомбинации, например при соматической обработке генов иммуноглобулина. Пример использования (MH388468):
     iDNA            312..404
                     /note="internal eliminated sequence"
     iDNA            596..653
                     /note="internal eliminated sequence"

Ключ 3
mobile_element
Участок генома, содержащий мобильные генетические элементы. Обязательно указывать тип мобильного элемента (/mobile_element_type="[:]"). Пример использования (из MN317261):
     mobile_element  1..249
                     /mobile_element_type="integron:unnamed"

Ключ 4
ncRNA
Некодирующий белок ген, при этом не являющийся геном рибосомальной или транспортной РНК, его функциональный транскрипт - молекула РНК. Обязательно указывать тип некодирующей РНК (/ncRNA_class="TYPE").Пример использования (из XR_004179785):
     ncRNA           1..2976
                     /ncRNA_class="lncRNA"
                     /gene="LOC116271293"
                     /product="uncharacterized LOC116271293"
                     /db_xref="GeneID:116271293"

Ключ 5
polyA_site
участок, кодирующий сайт РНК-транскрипта, к которому будут добавлены остатки анилина в процессе посттрансляционного полиаденилирования. Используется в записях об эукариотах и их вирусах. Пример использования (из NM_011260):
     polyA_site      773
                     /gene="Reg3g"
                     /gene_synonym="AI449515; reg III-gamma; REG-3-gamma"

Ключ 6
stem_loop
Шпилька (петля). Двухцепочечный участок, образованный спариванием оснований между перевёрнутыми друг относительно друга комплементарными участками одноцепочечной молекулы. Пример использования (из U78295):
     stem_loop       1479..1498

Ключ 7
telomere
Теломерный участок, экспериментально подтверждённый. Участок ДНК, определяющий специфичную структуру на конце линейных эукариотических хромосом, отличающийся от остальной хромосомы и физически являющийся её концом. Пример использования (из NC_001148):
     telomere        complement(1..7223)
                     /note="TEL16L; Telomeric region on the left arm of
                     Chromosome XVI; annotated components include an X element
                     core sequence, X element combinatorial repeats, and a long
                     Y' element; TEL16L does have telomeric repeats
                     (TEL16L-TR), but they are missing from the genome
                     annotation due to difficulties encountered during
                     sequencing and/or assembly"
                     /db_xref="SGD:S000028933"