Практикум 7

Задание 1.

Таблица 1. Эукариотический организм
Название Photinus pyralis (common eastern firefly)[рус. семейство Светляки]
Описание Вжух. Очень нежное насекомое. Их невинные отроки-личинки пожирают наземных гастропод и гордятся этим. За неуплату налогов улитки рады умереть в совсем нестрашных муках и отдать свой дом для временных штабов будущих Звездоподобных. Патент на фотолюминисценцию делает имаго этих насекомых монополистами в сфере ночной светомузыки и коммуникации. При этом жабодушие вынуждает светляков при помощи люциферин-люциферазного комплекса использовать до 87-98% энергии (человек, который сильнее жабы, самоутверждается за счет потери 95% энергии в лампочке накаливания в виде тепла). Свет светлячков холоден и бездушен.
Картинка

image
источник

Число сборок генома 1

Таблица 2. Лучшая (и единственная) сборка
Название Ppyr1.3
AC сборки из GenBank GCA_008802855.1
assembly level Scaffold
Общая длина последовательности 471.511 Mb
Число скэффолдов 2,160
Scaffold N50 47,017,841
Scaffold L50 5
Число конигов 7,909
Contig N50 170,308
Contig L50 757
Число аннотированных белков 15,774
Ссылка на публикацию с описанием проекта Firefly genomes illuminate parallel origins of bioluminescence in beetles.
Ссылка на последовательность одного из контигов в формате .fasta (файл на kodomo) Перейдя по ссылке, указанной в строке
Whole Genome Shotgun (WGS): 	INSDC:

Потом в строке
 WGS 
, я попала на список контигов в WGS, как я поняла. (но почему везде scaffold?)
и скачала оттуда один из файлов:
scaffold № 23

Задание 2.

Таблица 3. Прокариотический вирус
где и как искали, текст запроса Поиск по NCBI в Nucleotide. "((Leviviridae[Organism]) AND 3000:4000[Sequence Length]) AND "Complete Genome""
без кавычек - слова по принципу OR, с кавычками - AND
находок в GenBank и RefSeq (NCBI) genbank - 17
refseq - 5
(смотреть слева)
AC нуклеотидной записи NC_008294
латинское название и TaxID вида Pseudomonas phage PRR1
12024
тип генома: DNA/RNA, ds/ss, линейный/кольцевой ss-RNA linear
хозяина вируса (бактерия или архея, и род) бактерии рода Pseudomonas
ссылка на файл .fasta с участками генома, предположительно кодирующими белки (CDS) На страничке genbank записи генома send to -> галочка "coding sequences" -> FASTA nucleotide -> create file
PRR1 proteins

Задание 3.

Описание семи ключей, информация подчерпнута из документации (insdc.org/documents/feature-table#3.2.4) на сайте INSDC.

Таблица 4. Ключи таблиц особенностей
Название описание пример использования
1. regulatory любой участок последовательности, участвующий в регуляции трансляции, транскрипции, репликации или сворачивании хроматина. Необходимое уточнение:
/regulatory_class="TYPE" 
from NC_001426.1
      regulatory      127..131
                     /regulatory_class="ribosome_binding_site"
                     /note="putative rRNA binding site"
2. misc_RNA Любой транскрипт или РНК, который невозможно распознать как любой другой известный. (сейчас известно: prim_transcript, precursor_RNA, mRNA, 5'UTR, 3'UTR, exon, CDS, sig_peptide, transit_peptide, mat_peptide, intron, polyA_site, ncRNA, rRNA and tRNA) from CU329671.1
     misc_RNA        21025..21701
                     /locus_tag="SPNCRNA.287"
                     /product="non-coding RNA (predicted)"
     gene            complement(21060..21754)
                     /locus_tag="SPNCRNA.1300"
     misc_RNA        complement(21060..21754)
                     /locus_tag="SPNCRNA.1300"
                     /product="intergenic RNA (predicted)"
3. misc_feature Область, представляющая биологический интерес, но которую пока нельзя описать другими ключами особенностей; редкая или новая особенность from NC_001426.1
     misc_feature    1683..1707
                     /note="putative stem loop; may function in lysis gene
                     control"
     misc_feature    1733..1753
                     /note="putative stem loop structure; may bind coat
                     protein"
4. ncRNA Некодирующая РНК - то есть она не транслируется в белковую последовательность. Существует много классов - их нужно уточнять. from AE016819.5
      ncRNA           complement(317424..317647)
                     /ncRNA_class="snRNA"
                     /locus_tag="AGOS_AgSNR10"
                     /old_locus_tag="AgSNR10"
                     /product="AgSNR10"
                     /note="Identified by similarity to Saccharomyces
                     cerevisiae SNR10; start and end coordinates are
                     approximate; in synteny" 
5. centromere Область биологического интереса, описанная как "центромера", и охарактеризованная экспериментально from AE016819.5
     centromere      438382..438573
                     /note="Chromosome VI centromere"
     centromere      438382..438389
                     /note="Chromosome VI centromere CDE I element"
     centromere      438390..438555
                     /note="Chromosome VI centromere CDE II element"
     centromere      438556..438573
                     /note="Chromosome VI centromere CDE III element" 
6. sig_peptide and mat_peptide sig - от "signal" - область, кодирующая сигнальный пептид; или последовательность N-конца секретируемого белка - этот домен задействован к прикреплению будущего белка к мембранному транспортеру

mat - от "mature" - последовательность белка, прошедшего пост-трансляционную модификацию
from MG600141.1
     sig_peptide     446..499
                     /gene="Lyz"
                     /allele="B"
     mat_peptide     join(500..581,2038..2202,3753..3831,4377..4440)
                     /gene="Lyz"
                     /allele="B"
                     /product="lysozyme C"
     exon            2038..2202
                     /gene="Lyz"
                     /allele="B"
                     /number=2
     exon            3753..3831
                     /gene="Lyz"
                     /allele="B"
                     /number=3
     exon            4377..5315
                     /gene="Lyz"
                     /allele="B"
                     /number=4
7. variation Вариация - родственная цепочка имеет стабильную мутацию в этой позиции from MH844529.1
     variation       85077
                     /note="Variation type: SNP; Variations: A/G; Frequencies:
                     50.0/49.9; Amino acid change: Asp -> Asn"
     variation       85525
                     /note="Variation type: SNP; Variations: A/C; Frequencies:
                     55.4/44.6; Amino acid change: His -> Pro"