Банк нуклеотидных последовательностей EMBL

  1. Знакомство с банком EMBL
  2. a) Последний релиз банка был осуществлён 5 сент. 2008г. и на тот момент содержал 92831733 записей.
    b) Обозначения и описания списка классов:
    Обозначения и описание Число записей
    * ANN: Constructed sequence with annotation класс не проиндексирован
    * CON: Constructed sequence класс не проиндексирован
    * EST: Expressed Sequence Tag 54868004
    * GRV: Genome Reviews класс не проиндексирован
    * GSS: Genome Survey Sequence 24420981
    * HTC: High Throughput cDNA sequencing 524114
    * HTG: High Throughput Genome sequencing 135664
    * MGA: Mass Genome Annotation класс не проиндексирован
    * PAT: Patent 6175434
    * SET: Project set (EMBL WGS Masters only) класс не проиндексирован
    * STD: Standard 5752704
    * STS: Sequence Tagged Site 945908
    * TPA: Third Party Annotation 5919
    * TSA: Transcriptome Shotgun Assembly 3005
    * WGS: Whole Genome Shotgun класс не проиндексирован

    c) Обозначения и описания списка разделов:
    Обозначения и описание Число записей
    ENV: Образец среды 3614899
    FUN: Грибы 2524681
    HUM: Человек 11540219
    INV: Беспозвоночные 13679938
    MAM: Другие млекопитающие 8686059
    MUS: Домовая мышь 7330487
    PHG: Бактериофаги 4896
    PLN: Растения 28334269
    PRO: Прокариоты 675972
    ROD:Грызуны 1804253
    SYN: Синтезированные организмы 1500620
    TGN: Трансгенные организмы 265445
    UNC: Неклассифицированные организмы 2956530
    VRL: Вирусы 624900
    VRT: Другие позвоночные 9288565

  3. Анализ записи BA000025.embl
  4. Ген ТNFA имеет обратное направление, четыре кодирующих участка, длина первой кодирующей последовательности: 422 нуклеотидов, последнего: 186 нуклеотидов. Длина первого интрона: 606 нуклеотидов, длина последнего интрона: 301 нуклеотид.

  5. Команде seqret embl:BA000025 -sask были заданы первая и последняя позиция самой длинной кодирующей последовательности гена ТNFA (368099-368365). В файле, который породила команда, сохранена fasta-последовательность выбранного участка. Программе blastx в окошко для ввода была подана эта fasta-последовательность, поиск осуществлялся по базе данных (поле Database) Swiss-Prot. В результате было найдено 38 белков, третьим (E-value: 9e-06) оказался необходимый нам белок человека P01375. Экзону соответствует участок белка с 1 по 89 аминокилоты.

  6. В Swiss-Prot-записи белка в поле DR находим информацию о записях EMBL, потом осуществляем SRS-поиск по банку EMBL найденных нами идентификаторов и необходимых полей.
    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
    AP009048 genomic DNA STD PRO 22.01.2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome. 4646332
    M38301 genomic DNA STD PRO 16.09.1990 E.coli ribosomal protein L7 (L12) gene, partial cds 118
    U00006 genomic DNA STD PRO 22.09.1993 E. coli chromosomal region from 89.2 to 92.8 minutes. 176195
    U00096 genomic DNA STD PRO 23.02.2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675
    V00339 genomic DNA STD PRO 03.11.1982 E. coli operon rpoBC coding for the beta- and beta'-subunits of RNA polymerase (genes rpoC and rpoB), and genes rplL, rlpJ, rplA, and rplK coding for 50S ribosomal subunit proteins L7/L12, L10, L1, and L11, respectively. (Map position 89-90 min.) 12337
    Все записи относятся к классу данных STD, имеются две версии плного генома кишечной палочки, остальные записи относятся к более раннему периоду и представляют отдельные участки геномных областей.
Назад

На главную


©Степанова Вита