Банк EMBL.


Задание 1.Знакомство со структурой банка EMBL посредством поисковой системы SRS


А) В текущем релизе (113) 82772678, и этот релиз был проиндексирован 18 сентября 2012 года.
B) Cписок классов ("Data Class") банка EMBL.
    CON: Constructed sequence
    EST: Expressed Sequence Tag
    GRV: Genome Reviews
    GSS: Genome Survey Sequence
    HTC: High Throughput cDNA sequencing
    HTG: High Throughput Genome sequencing
    MGA: Mass Genome Annotation
    PAT: Patent
    SET: Project set (EMBL WGS Masters only)
    STD: Standard
    STS: Sequence Tagged Site
    TSA: Transcriptome Shotgun Assembly
    WGS: Whole Genome Shotgun
Число записей каждого класса, проиндексированных SRS для последнего релиза EMBL:
    gss 	34528104
    htc 	491770
    htg 	152599
    pat 	24364832
    std 	13920617
    sts 	1322570
    tsa 	7992186     
Классы записи, которых не проиндексированы в SRS: CON, EST, GRV, MGA, PAT, SET.
C)Список разделов ("Divisions") банка EMBL.
    ENV: Environmental Samples (пробы окружающей среды) в релизе 7762556 записей.
    FUN: Fungi (грибы) в релизе 2402829 записей.
    HUM: Human (человек) в релизе 11304977 записей.
    INV: Invertebrates (беспозвоночные) в релизе 7398340 записей.
    MAM: Other Mammals (другие млекопитающие) в релизе 6741732 записей. 
    MUS: Mus musculus (домовая мышь) в релизе 5163724 записей. 
    PHG: Bacteriophage (бактериофаг) в релизе 8503 записей. 
    PLN: Plants (растения) в релизе 20284404 записей. 
    PRO: Prokaryotes (прокариоты) в релизе 1639517 записей. 
    ROD: Rodents (грызуны) в релизе 1313761 записей. 
    SYN: Synthetic (синтетические) в релизе 4045013 записей. 
    TGN: Transgenic (трансгенные) в релизе 285306 записей. 
    UNC: Unclassified (неклассифицируемые) в релизе 8617170 записей. 
    VRL: Viruses (вирусы) в релизе 1358516 записей. 
    VRT: Other Vertebrates (другие позвоночные) в релизе 4446330 записей. 

Задание 2.Описание гена NG36 в записи банка EMBL.


Ген NG36 расположен в прямом направлении относительно направления, выбранного для записи, в этом гене 4 кодирующих участков, длина первого 49 кодирующего участка и длина последнего 33 кодирующего участка, длина первого 98 интрона и длина последнего 2063 интрона.

Задание 3.Нахождение белка по фрагменту гена


Самый длинный кодирующий участок в гене NG36- это участок 47313..47566.
Я его вырезала в отдельный файл с помощью программы seqret с опцией -sask.
Я использовала blastx поскольку в нем белок ищется по нуклеотидной последовательности.
На странице blastx я ввела в окошко Enter Query Sequence нуклеотидную последовательность, полученную выше, выбрала в качестве банка данных swissprot и нажала кнопку blast.
Было найдено два белка Q96KQ7.3 и Q9Z148.2. Q96KQ7.3 выравнился на 100%, его кодирует ген NG36. Экзону соответствует участок белка 129-197
 Score = 80.1 bits (196),  Expect = 3e-17, Method: Compositional matrix adjust.
 Identities = 66/66 (100%), Positives = 66/66 (100%), Gaps = 0/66 (0%)
 Frame = +3

Query  57   RAKMSMTGAGKSPPSVQSLAMRLLSMpgaqgaaaagsepppattspegQPKVHRARKTMS  236
            RAKMSMTGAGKSPPSVQSLAMRLLSMPGAQGAAAAGSEPPPATTSPEGQPKVHRARKTMS
Sbjct  129  RAKMSMTGAGKSPPSVQSLAMRLLSMPGAQGAAAAGSEPPPATTSPEGQPKVHRARKTMS  188

Query  237  KPGNGQ  254
            KPGNGQ
Sbjct  189  KPGNGQ  194

Задание 4.Ссылки из записи банка Swiss-Prot на записи банка EMBL


С помощью команды entret sw:P42412 было получин файл. В нем три ссылки на EMBL.
DR   EMBL; AB005554; BAA21609.1; -; Genomic_DNA.
DR   EMBL; AL009126; CAB16012.1; -; Genomic_DNA.
DR   EMBL; D14399; BAA03290.1; -; Genomic_DNA.
C помощью SRS я получила информацию, необходимую для заполнения следующей таблицы. файл с результатом поиска в SRS.
ID записи Тип молекулы Класс данных Дата внесения в банк Описание Длина последовательности
AB005554 genomic DNA STD 25-JUL-1997 Bacillus subtilis genomic DNA, 36 kb region between gnt and iol operons. 36448
AL009126 genomic DNA STD 18-JUL-2002 Bacillus subtilis subsp. subtilis str. 168 complete genome. 4215606
D14399 genomic DNA STD 15-MAR-1995 Bacillus subtilis 15 kb chromosome segment contains the iol operon 14974


© Julia Chudakova