Банки нуклеотидных последовательностей

Характеристка качества сборки генома эукариотического организма

Организм

Anopheles gambiae = Малярийный комар гамбийский (сочинила сама, наши учёные таким не занимались).
Насекомое (беспозвоночное), печально известное как переносчик малярии. Изучается, потому что оказалось, что бороться с малярией проще регулируя популяции переносчиков, чем придумывая вакцины.

кусь комара
Рис. 1. Фотография гамбийского комара на чьей-то коже c сайта NCBI.

Сборок генома 4.
Рассмотрим лучшую из них.

Сборка

Название (assembly name): AgamP3
AC сборки из RefSeq: GCF_000005575.2
"уровень" сборки (assembly level): Chromosome
Общая длина последовательности: 265,027,044
Число контигов и скэффолдов: 16,825 и 8,145
Contig N50: 85,548; Contig L50: 696
Scaffold N50: 12,309,988; Scaffold L50: 9
Число аннотированных белков: 14102
Ссылка на публикацию с описанием проекта
После поиска в Genome c txid7165[Organism] открыла таблицу по ссылке list, оттуда перешла на WGS выбранной сборки (AAAB01), там нажала на ссылку FASTA у контига с именем CRA_x9P1GAV4NRA. Файл.

Скачивание последовательности CDS прокариотического вируса

Искала в NCBI Nucleotide.
Текст запроса: ("Ampullaviridae"[Organism] AND 20000[SLEN] : 30000[SLEN]) AND "complete genome"[Text Word].
3 находки в GenBank; 3 - в RefSeq.
AC нуклеотидной записи выбранного генома: NC_028938.1
Латинское название и TaxID вида: Acidianus bottle-shaped virus 2 и 1732173
Тип генома: линейная двухцепочечная ДНК
Хозяева: археи рода Acidianus
Файл c CDS. После открытия информации о геноме вируса в формате GenBank на сайте NCBI нажимала Send to > Coding Sequences > FASTA Nucleotide.

Cемь ключей, используемых в таблицах особенностей

1. rep_origin: указывает координаты ориджина репликации, а также (дополнительно) его название и направление.
     rep_origin      154546511..154547759
                     /experiment="EXISTENCE:fractionation evidence
                     [ECO:0000100][PMID:12616531]"
                     /note="region encompassed by amplicons 4 and 5; peak of
                     nascent strand synthesis detected in quantitative PCR of
                     size-fractionated nascent DNA"
                     /direction=BOTH
                     /db_xref="GeneID:107181288"
2. repeat_region: указывает координаты участка генома, содержащего повторы, а также (дополнительно) вид повтора и его последовательность.
     repeat_region   6532765..6533784
                     /experiment="EXISTENCE:nucleotide sequencing assay
                     evidence [ECO:0000219][PMID:1549475]"
                     /note="variable number tandem repeat (VNTR); RU2
                     (repeating unit 2) with a with a variable number of a
                     tetranucleotide repeat (GGGA, TCCC on the complementary
                     strand) within the repeat"
                     /rpt_type=tandem
                     /rpt_unit_seq="tccc"
                     /db_xref="GeneID:106029240"
3. regulatory: указывает координаты любого регуляторного фрагмента с обязательным указанием его класса. Дополнительно можно описать конкретную функцию.
     regulatory      140505021..140505307
                     /regulatory_class="promoter"
                     /experiment="EXISTENCE:reporter gene assay evidence
                     [ECO:0000049][PMID:15656994]"
                     /note="F17R24 amplicon spanning -219 to +67"
                     /function="core promoter"
                     /db_xref="GeneID:108281134"
4. protein_bind: указывает координаты сайта нековалентного связывания с определенным белком. Возможно указать функцию.
     protein_bind    140505124..140505150
                     /experiment="EXISTENCE:protein binding evidence
                     [ECO:0000024][PMID:15656994]"
                     /note="-63 SP1 site"
                     /bound_moiety="Sp1 transcription factor"
                     /function="positive regulation of transcription"
                     /db_xref="GeneID:108281134"
5. mobile_element: указывает координаты и тип мобильного элемента последовательности.
     mobile_element  154557119..154557308
                     /note="direction; reverse; Derived by automated
                     computational analysis using gene prediction method:
                     Curated Genomic."
                     /rpt_family="ERVL-MaLR"
                     /rpt_type=dispersed
                     /mobile_element_type="retrotransposon:MLT1C"
                     /db_xref="GeneID:107988021"
6. V_region: указывает координаты фрагмента последовательности, кодирующего вариабельный участок лёгкой или тяжёлой цепей антитела или некоторых цепей Т-клеточного рецептора.
     V_region        821..1132
                     /gene="TRGV9"
                     /product="T-cell receptor gamma"
7. operon: указывает координаты оперона и его название.
     operon          70..6338
                     /operon="lac"