Работа с геномными сборками в NCBI
Psilocybe cubensis (Псилоцибе кубинская) - агарикоидный базидиомицет, известен в первую очередь своими галлюциногенными свойствами благлдаря содержащимся в нём веществам - псилоцибину, псилоцину и (в следовых количествах) диметилтриптамину
Распространён в тропических и субтропических областях Азии, а также почти на всей территории Южной и Центральной Америки, где находил применение в шаманских обрядах
Плодовые тела небольшие, с пластинчатым гименофором
В базе данных Assembly я обнаружил всего одну сборку генома, датированную мартом этого года
На данный момент доступна только одна сборка MGC_Pcub_v3, осуществлённая на уровне контигов и представляющая собой репрезентативный геном в RefSeq
В RefSeq AC сборки отсутствует, в GenBank GCA_017499595.1
Длина последовательности (гаплоидной) 46,603,744 нуклеотидов, причём без гэпов (неизвестной длины)
Сборка содержит 32 контига и совпадающие с ними 32 скэффолда (что логично вытекает из того, что сборка осуществлена только на уровне контигов), причём 26й по длине контиг/скэффолд содержит митохондриальную ДНК
Параметры контигов: N50=3,335,923; L50=6
Параметры скэффолдов, вероятно, аналогичны параметрам контигов
Статья в PubMed
Для скачивания я выбрал контиг 26, представляющий митохондриальный геном
Мне нужен был геном вируса семейства Myoviridae с длиной 80000-90000 bp. Для этого я осуществил поиск по базе данных Nucleotide с запросом (Myoviridae[Organism]) AND 80000:90000[Sequence Length] и выбрал геном фага Сальмонеллы GEC_vB_BS
Файл с CDS я получил следующим образом: Send to > Coding sequences > FASTA nucleotide > Create file
AC записи MW006475
Вирус Salmonella phage GEC_vB_BS,
TaxID 2777374
Геном представлен кольцевой ДНК (хотя в Википедии для Myoviridae указывается двуцепочечная линейная ДНК)
Фаг получен из бактерии Salmonella enterica Typhimurium SeT.4 в Чёрном море близ Батуми
1. C_region
Константный регион антитела/BCR/TCR
Пример использования: запись с АС NG_007044; участки 1715385-1715663, 1716305-1716370, 1716737-1716853, 1718000-1718642, 1793055-1793315, 1794640-1794684, 1795525-1795632, 1796220-1796732
2. old_sequence
Участок последовательности из более старой версии
Пример использования: запись с АС NC_001411; участок 2688-2690
3. polyA_site
Сайт полиаденилирования в мРНК
Пример использования: запись с АС XM_044233403; нуклеотид 4574
4. propeptide
Участок гена, кодирующий вырезаемую при созревании часть белка
Пример использования: запись с АС LR995269; участок 1-138
Как ни странно, находятся только 6 записей из бродячего паука Cupiennius salei и одна из грибка Fusarium oxysporum
5. mat_peptide
Напротив, участок гена, кодирующий часть белка, остающуюся после протеолитического созревания
Пример использования: та же запись, участок 139-246
А вот при поиске по данному ключу выдаётся куда больше записей из более широкого спектра организмов
AC AB186128 (GenBank)
C_region join(<88497..88826,92068..92103,93729..94339) /gene="TCRGC1" /note="Cg1, previosly Cg4 (see Acc# L21160)"
AC X15588 S51003 (видимо, новый и старый)
old_sequence 199 /note="a was c in [1]" /citation=[2]
AC AY130758
polyA_site 68842 /gene="ttn-1" /note="alternative site; utilized with 1MDa_1 protein"
AC LR995269
propeptide 1..138 /note="partial"
AC X00165
mat_peptide 417..1239 /note="coding sequence mature subtilisin"