Работа с геномными сборками в NCBI

Характеристика организма

Psilocybe cubensis (Псилоцибе кубинская) - агарикоидный базидиомицет, известен в первую очередь своими галлюциногенными свойствами благлдаря содержащимся в нём веществам - псилоцибину, псилоцину и (в следовых количествах) диметилтриптамину

Распространён в тропических и субтропических областях Азии, а также почти на всей территории Южной и Центральной Америки, где находил применение в шаманских обрядах

Плодовые тела небольшие, с пластинчатым гименофором

В базе данных Assembly я обнаружил всего одну сборку генома, датированную мартом этого года

грибочки
Фотография плодовых тел со страницы в Википедии
Описание геномной сборки

На данный момент доступна только одна сборка MGC_Pcub_v3, осуществлённая на уровне контигов и представляющая собой репрезентативный геном в RefSeq

В RefSeq AC сборки отсутствует, в GenBank GCA_017499595.1

Длина последовательности (гаплоидной) 46,603,744 нуклеотидов, причём без гэпов (неизвестной длины)

Сборка содержит 32 контига и совпадающие с ними 32 скэффолда (что логично вытекает из того, что сборка осуществлена только на уровне контигов), причём 26й по длине контиг/скэффолд содержит митохондриальную ДНК

Параметры контигов: N50=3,335,923; L50=6

Параметры скэффолдов, вероятно, аналогичны параметрам контигов

Статья в PubMed

Для скачивания я выбрал контиг 26, представляющий митохондриальный геном

Работа с вирусным геномом

Мне нужен был геном вируса семейства Myoviridae с длиной 80000-90000 bp. Для этого я осуществил поиск по базе данных Nucleotide с запросом (Myoviridae[Organism]) AND 80000:90000[Sequence Length] и выбрал геном фага Сальмонеллы GEC_vB_BS

Файл с CDS я получил следующим образом: Send to > Coding sequences > FASTA nucleotide > Create file

AC записи MW006475

Вирус Salmonella phage GEC_vB_BS,
TaxID 2777374

Геном представлен кольцевой ДНК (хотя в Википедии для Myoviridae указывается двуцепочечная линейная ДНК)

Фаг получен из бактерии Salmonella enterica Typhimurium SeT.4 в Чёрном море близ Батуми

Описание ключей локальных особенностей

1. C_region
Константный регион антитела/BCR/TCR
Пример использования: запись с АС NG_007044; участки 1715385-1715663, 1716305-1716370, 1716737-1716853, 1718000-1718642, 1793055-1793315, 1794640-1794684, 1795525-1795632, 1796220-1796732

2. old_sequence
Участок последовательности из более старой версии
Пример использования: запись с АС NC_001411; участок 2688-2690

3. polyA_site
Сайт полиаденилирования в мРНК
Пример использования: запись с АС XM_044233403; нуклеотид 4574

4. propeptide
Участок гена, кодирующий вырезаемую при созревании часть белка
Пример использования: запись с АС LR995269; участок 1-138
Как ни странно, находятся только 6 записей из бродячего паука Cupiennius salei и одна из грибка Fusarium oxysporum

5. mat_peptide
Напротив, участок гена, кодирующий часть белка, остающуюся после протеолитического созревания
Пример использования: та же запись, участок 139-246
А вот при поиске по данному ключу выдаётся куда больше записей из более широкого спектра организмов

Примеры использования ключей

AC AB186128 (GenBank)

     C_region        join(<88497..88826,92068..92103,93729..94339)
                     /gene="TCRGC1"
                     /note="Cg1, previosly Cg4 (see Acc# L21160)"
											

AC X15588 S51003 (видимо, новый и старый)

     old_sequence    199
                     /note="a was c in [1]"
                     /citation=[2]
											

AC AY130758

     polyA_site      68842
                     /gene="ttn-1"
                     /note="alternative site; utilized with 1MDa_1 protein"
											

AC LR995269

     propeptide      1..138
                     /note="partial"
											

AC X00165

     mat_peptide     417..1239
                     /note="coding sequence mature subtilisin"