Банки нуклеотидных последовательностей
Характеристка качества сборки генома эукариотического организма
Организм
Anopheles gambiae = Малярийный комар гамбийский (сочинила сама, наши учёные таким не занимались).
Насекомое (беспозвоночное), печально известное как переносчик малярии. Изучается, потому что оказалось, что бороться с малярией проще регулируя популяции переносчиков, чем придумывая вакцины.
Сборок генома 4.
Рассмотрим лучшую из них.
Сборка
Название (assembly name): AgamP3
AC сборки из RefSeq: GCF_000005575.2
"уровень" сборки (assembly level): Chromosome
Общая длина последовательности: 265,027,044
Число контигов и скэффолдов: 16,825 и 8,145
Contig N50: 85,548; Contig L50: 696
Scaffold N50: 12,309,988; Scaffold L50: 9
Число аннотированных белков: 14102
Ссылка на публикацию с описанием проекта
После поиска в Genome c txid7165[Organism] открыла таблицу по ссылке list, оттуда перешла на WGS выбранной сборки (AAAB01), там нажала на ссылку FASTA у контига с именем CRA_x9P1GAV4NRA. Файл.
Скачивание последовательности CDS прокариотического вируса
Искала в NCBI Nucleotide.
Текст запроса: ("Ampullaviridae"[Organism] AND 20000[SLEN] : 30000[SLEN]) AND "complete genome"[Text Word].
3 находки в GenBank; 3 - в RefSeq.
AC нуклеотидной записи выбранного генома: NC_028938.1
Латинское название и TaxID вида: Acidianus bottle-shaped virus 2 и 1732173
Тип генома: линейная двухцепочечная ДНК
Хозяева: археи рода Acidianus
Файл c CDS. После открытия информации о геноме вируса в формате GenBank на сайте NCBI нажимала Send to > Coding Sequences > FASTA Nucleotide.
Cемь ключей, используемых в таблицах особенностей
rep_origin 154546511..154547759 /experiment="EXISTENCE:fractionation evidence [ECO:0000100][PMID:12616531]" /note="region encompassed by amplicons 4 and 5; peak of nascent strand synthesis detected in quantitative PCR of size-fractionated nascent DNA" /direction=BOTH /db_xref="GeneID:107181288"2. repeat_region: указывает координаты участка генома, содержащего повторы, а также (дополнительно) вид повтора и его последовательность.
repeat_region 6532765..6533784 /experiment="EXISTENCE:nucleotide sequencing assay evidence [ECO:0000219][PMID:1549475]" /note="variable number tandem repeat (VNTR); RU2 (repeating unit 2) with a with a variable number of a tetranucleotide repeat (GGGA, TCCC on the complementary strand) within the repeat" /rpt_type=tandem /rpt_unit_seq="tccc" /db_xref="GeneID:106029240"3. regulatory: указывает координаты любого регуляторного фрагмента с обязательным указанием его класса. Дополнительно можно описать конкретную функцию.
regulatory 140505021..140505307 /regulatory_class="promoter" /experiment="EXISTENCE:reporter gene assay evidence [ECO:0000049][PMID:15656994]" /note="F17R24 amplicon spanning -219 to +67" /function="core promoter" /db_xref="GeneID:108281134"4. protein_bind: указывает координаты сайта нековалентного связывания с определенным белком. Возможно указать функцию.
protein_bind 140505124..140505150 /experiment="EXISTENCE:protein binding evidence [ECO:0000024][PMID:15656994]" /note="-63 SP1 site" /bound_moiety="Sp1 transcription factor" /function="positive regulation of transcription" /db_xref="GeneID:108281134"5. mobile_element: указывает координаты и тип мобильного элемента последовательности.
mobile_element 154557119..154557308 /note="direction; reverse; Derived by automated computational analysis using gene prediction method: Curated Genomic." /rpt_family="ERVL-MaLR" /rpt_type=dispersed /mobile_element_type="retrotransposon:MLT1C" /db_xref="GeneID:107988021"6. V_region: указывает координаты фрагмента последовательности, кодирующего вариабельный участок лёгкой или тяжёлой цепей антитела или некоторых цепей Т-клеточного рецептора.
V_region 821..1132 /gene="TRGV9" /product="T-cell receptor gamma"7. operon: указывает координаты оперона и его название.
operon 70..6338 /operon="lac"