Работа с нуклеотидными БД

Сборка генома Homo Sapiens

Латинское название вида - Homo Sapiens, Челове́к разу́мный. Согласно последним исследованиям появился на Земле от 300 тысяч до 350 тысяч лет назад. На данный момент на Земле живёт почти 7 930 000 000 преставителей этого вида. Подавляющее большинство посетителей этого сайта - представители данного вида.

Рис.1 Homo sapiens Источник
Число сборок генома 1028
Выбранная сборка ASM311291v1
AC (GenBank) GCA_003112915.1
Assembly level scaffold
Общая длина 2 882 360 800
Число контигов 68 344
N50 контигов 123 932
L50 контигов 6805
Число скэффолдов 21 964
N50 скэффолдов 24 847 330
L50 скэффолдов 41
BioProject (ссылка на публикацию) PRJNA418343
Последовательность контига PJNX01021952.1

CDS представителя Siphoviridae

Запрос:(70000:80000[SLEN] AND (Siphoviridae[ORGANISM])) AND complete genome
Количество находок: 495 - GenBank(353), RefSeq(128)

AC записи NC_055918.1
Организм Mycobacterium phage OhShagHennessy
TaxID 2801895
Taxonomy Viruses; Duplodnaviria; Heunggongvirae; Uroviricota; Caudoviricetes; Caudovirales; Siphoviridae; Bronvirus; unclassified Bronvirus
Тип генома linear DNA
Хозяин (Host) Mycobacterium smegmatis mc2 155
Файл с CDS белков sequence.fasta
Процедура получения файла с CDS: "Send to" → "Coding Sequences" → "Download features. FASTA Nucleotide". Файл сохранился в формате .txt, поэтому его расширение было изменено на .fasta

Ключи локальных особенностей

repeat_region - область генома, содержащая повторы.
AC: NC_005038
         repeat_region   10984..11467
                     /note="repeat region 1; 484bp imperfect tandem repeat of
                     C-terminus of ORF_18"

mobile_element - фрагмент генома, содержащий мобильные генетические элементы.
AC: AJ131756
             mobile_element  276..1043
                     /note="Insertion of IS1 in the csgB gene of avian E. coli
                     O78:K80, resulting in loss of phenotype associated with
                     curli fimbriae"
                     /mobile_element_type="insertion sequence:IS1"

V_region - вариабельные участки легких и тяжелых цепей иммуноглобулина, а также альфа-, бета- и гамма-цепей рецептора Т-клеток.
AC: EU599354
          V_region        1..295
                    /note="IGLV2-14*01; VL2 family"

telomere - область, идентифицированная как теломера, а также экспериментально охарактеризованная.
AC: CP028774.1
            telomere   1..269

STS - уникальная последовательность в геноме, которую можно использовать в качестве ориентира при картировании какой-либо последовательности на геном.
AC: NM_021050.2
             STS             6077..6218
                    /gene="Cftr"
                    /gene_synonym="Abcc7; AW495489"
                    /standard_name="Cftr"