Банк нуклеотидных последовательностей EMBL

  1. В системе SRS (http://srs.ebi.ac.uk/), воспользовавшись вкладкой "Library Page" и гиперссылкой "EMBL (release)", можно определить дату последнего проиндексированного в системе релиза EMBL и количество записей в нём.
    Согласно индексации от 7 сентября 2009 года текущий релиз EMBL содержит 108577013 записей.
    Посмотреть на релиз можно здесь.
  2. "Data Class" банка EMBL.
    Обозначение класса. Описание класса . Количество проиндексированных записей.
    ANN Constructed sequence with annotation не проиндексирован
    CON Constructed sequence не проиндексирован
    EST Expressed Sequence Tag 62846990
    GRV Genome Reviews не проиндексирован
    GSS Genome Survey Sequence 25905073
    HTC High Throughput cDNA sequencing 549753
    HTG High Throughput Genome sequencing 142473
    MGA Mass Genome Annotation не проиндексирован
    PAT Patent 10439165
    SET Project set (EMBL WGS Masters only) не проиндексирован
    STD Standard 7253026
    STS Sequence Tagged Site 1310171
    TPA Third Party Annotation 6520
    TSA Transcriptome Shotgun Assembly 123842
    WGS Whole Genome Shotgun не проиндексирован

  3. Cписок разделов ("Divisions") банка EMBL .
    Обозначение раздела. Описание раздела. Количество проиндексированных записей.
    ENV Environmental Samples (Примеры из окружающей среды) 4145029
    FUN Fungi (Грибы) 3942084
    HUM Human (Человек) 12841544
    INV Invertebrates (Беспозвоночные) 15518735
    MAM Other Mammals (Другие млекопитающие) 9429823
    MUS Mus musculus (Геном домовой мыши) 7424621
    PHG Bacteriophage (Бактериофаги) 5865
    PLN Plants (Растения) 33806044
    PRO Prokaryotes (Прокариоты) 909986
    ROD Rodents (Грызуны) 2261678
    SYN Synthetic (Искусственно синтезированные) 2671622
    TGN Transgenic (Трансгенные) 265465
    UNC Unclassified (Неклассифицированные) 3945859
    VRL Viruses (Вирусы) 827405
    VRT Other Vertebrates (Другие позвоночные) 10581253

  4. Диаграмма, показывающая сколько стандартных записей (класса STD) появилось в каждом из 3 разделов VRL, PRO, HUM за май 2008 и 2009 годов.

    Из диаграммы видно, что в 2009 году число записей сильно уменьшилось. Особенно это наблюдается у человека, так как человеческий геном почти полностью отсеквенирован.

  5. Краткая характеристика гена DDR.
    Направление гена относительно направления, выбранного для записи : обратное.
    Число кодирующих участков: 17.
    Длина первого кодирующего участка: 1053361 - 1053277 + 1 = 85.
    Длина последнего кодирующего участка: 1042933 - 1042793 + 1 = 141.
    Длина первого интрона: 1053276 - 1053184 + 1 = 93.
    Длина последнего интрона: 1043051 - 1042934 + 1 = 118.

  6. Для вырезания учаска из файла EMBL :
    1. Через putty запустить команду seqret -sask
    2. На запрос "intup (gapped) sequence" ввести имя входного файла EMBL, т.е. BA000025.embl
    3. На запрос "Begin at position [start]: " и "End at position [end]:"
    нужно ввести самый длинный экзон
    это седьмой участок: (1049547..1049793) (длина - 247 оснований)
    4.На запрос "Reverse strand " я ввела "n".
    5.Задала имя выходного файла (ba000025.fasta).
    6.Зашла на страницу BLAST.
    7.Прошла по ссылке blastX .
    8.Ввела полученный вырезанный участок и задала поиск по Swiss-Prot.


    Прогаммой blastx было найдено 6 белков. Первый найденный белок DDR1_PANTR имеет e-value = 5e-19. Идентичность - 100%. Имеет идентификатор Q7YR43.1. Участки этого белка с 281 по 347 аминокислотные остатки соответствует экзону.

  7.  В записи Swiss-Prot, описывающей белок P0A796 были взяты все ссылки на банк EMBL.
    (Для этого запись Swiss-Prot была извлечена программой entret : entret sw:P0A796 -auto).

    Далее искала информацию следующим образом:
    На страничке "Library page" поставить галочку против EMBL, затем нажать кнопку "Standard Query Form". Поиск вести по полю "Accession number", пользуясь логическим оператором "ИЛИ".
    Создать один запрос, позволяющий сразу получить всю нужную информацию можно выделив в окошке "Choose 1 or more fields" при помощи клавиши <Ctrl> интересующие поля: ID, Molecule, Data class, Division, Sequence Length, Entry Creation Date, Description. Сохранить результаты поиска в виде таблицы при помощи кнопки "Save".

    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Длина последовательности Дата создания документа Описание
    X02519  genomic DNA  STD  PRO  3326  28-JAN-1986  E. coli genes pfkA, sbp and cdh for phosphofructokinase-1, sulphate binding protein and cdp-diglyceride hydrolase
    L19201  genomic DNA  STD  PRO  96484  31-AUG-1993  E. coli chromosomal region from 87.2 to 89.2 minutes.
     U00096  genomic DNA  STD  PRO  4639675  23-FEB-2006  Escherichia coli str. K-12 substr. MG1655, complete genome.
    AP009048  genomic DNA  STD  PRO  4646332  22-JAN-2006  Escherichia coli W3110 DNA, complete genome.


<<Обратно на третий семестр

<<Обратно на главную страницу

©Лелекова Мария,2009