Банк нуклеотидных последовательностей EMBL



    1. Последний в системе SRS релиз EMBL проиндексирован 7 сентября 2009 года. Он содержит 108577013 записей.

    2. Классы банка EMBL:
      Обозначение и описание классов банка EMBL Число записей в классе
      ANN: Constructed sequence with annotation Записи не проиндексированы
      CON: Constructed sequence Записи не проиндексированы
      EST: Expressed Sequence Tag 62846990
      GRV: Genome Reviews Записи не проиндексированы
      GSS: Genome Survey Sequence 25905073
      HTC: High Throughput cDNA sequencing 549753
      HTG: High Throughput Genome sequencing 142473
      MGA: Mass Genome Annotation Записи не проиндексированы
      PAT: Patent 10439165
      SET: Project set (EMBL WGS Masters only) Записи не проиндексированы
      STD: Standard 7253026
      STS: Sequence Tagged Site 1310171
      TPA: Third Party Annotation 6520
      TSA: Transcriptome Shotgun Assembly 123842
      WGS: Whole Genome Shotgun Записи не проиндексированы

    3. Раделы банка EMBL:
      Обозначение разделов банка EMBL Описание Число записей
      ENV Образцы окружающей среды (метагеном) 4145029
      FUN Грибы 3942084
      HUM Человек 12841544
      INV Беспозвоночные животные 15518735
      MAM Другие млекопитающие 9429823
      MUS Домовая мышь 7424621
      PHG Бактериофаги 5865
      PLN Растения 33806044
      PRO Прокариоты 909986
      ROD Грызуны 2261678
      SYN Синтетические 2671622
      TGN Трансгенные 265465
      UNC Неклассифицированные 3945859
      VRL Вирусы 827405
      VRT Другие позвоночные животные 10581253

    4. Для выполнения задания были выбраны разделы HUM, ENV и PRO. Сравнивались количества записей в каждом из этих разделов за май 2008 и 2009 года. Для удобства была создана таблица и диаграмма:

      HUM ENV PRO
      2008 2819 47002 6651
      2009 1324 68531 15056


      Как видно из диаграммы, в 2009 году поступлений в банк EMBL в разделы ENV и PRO было больше, чем в 2008 году. Записей в раздел HUM было добавлено в мае 2009 года немного меньше, чем в мае 2008 года. Мне кажется, это можно объяснить тем, что, во-первых, международная программа по секвенированию генома человека уже определила почти все нуклеотидные последовательности генов человека, а во-вторых, тем, что сейчас в практических целях важно секвенировать последовательности генов прокариот и других микроорганизмов (в целях генной инженерии).

  1. Описание гена NG36 записи EMBL с кодом доступа BA000025

    Направление гена - прямое;
    число кодирующих участков - 4;
    длина первого кодирующего остатка - 49;
    длина последнего кодирующего остатка - 33;
    длина первого интрона между кодирующими участками - 98;
    длина последнего интрона между кодирующими участками - 2603.

  2. Поиск белка по самому длинному кодирующему участку гена NG36

    Вначале с помощью программы seqret с опцией -sask в файле ng36.fasta был сохранен самый длинный кодирующий участок гена NG36: 47313..47566 (длиной в 254 нуклеотидные пары).
    Затем на сайте http://blast.ncbi.nlm.nih.gov/ в программе blastx (которая ищет белковые последовательности на основе заданных на вход нуклеотидных) была введена последовательность участка в fasta-формате. В качестве базы данных, используемой для поиска, был выбран SwissProt.
    В итоге нашлось 2 удачные находки с низким E-value. Первая из них - белок EHMT2 человека, вторая - белок EHMT2 мыши. В белке человека моему экзону соответствует участок со 111 по 194 а.о., в белке мыши - участок со 164 по 248 а.о. Участки очень похожи друг на друга, однако, все же, участок белка человека похож на экзон больше (это и понятно, ведь ген был выделен из ДНК человека).

  3. Характеристика записей EMBL

    Всего в записи SwissProt, описывающей белок DPS_ECOLI, было найдено 5 ссылок на банк EMBL. С помощью SRS была получена их характеристика:
    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
    AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome. 4646332
    U00096 genomic DNA STD PRO 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675
    U04242 genomic DNA STD PRO 18-JAN-1994 Escherichia coli core starvation protein PexB (pexB) gene, complete cds. 2859
    X14180 genomic DNA STD PRO 30-JAN-1989 Escherichia coli glutamine permease glnHPQ operon 3436
    X69337 genomic DNA STD PRO 03-DEC-1992 E.coli dps gene for binding protein 830

    Как видно из таблицы, тип молекулы, класс (standard> и раздел банка (прокариоты) во всех 5 записях совпадают. Самые старые записи описывают последовательности оперона глутамин-пермеазы, гена, кодирующего белок DPS_ECOLI (изучаемый белок), и гена, кодирующего белок PexB. Поздние две записи (2006 года) описывают полный геном E.coli двух разных штаммов.

Назад