Банк нуклеотидных последовательностей EMBL

  1.  Пользуясь системой SRS (http://srs.ebi.ac.uk/) определили, что:

    1. Дата последнего проиндексированного в системе релиза EMBL - 5 сентября 2008 года; количество записей в нём - 92831733.

    2. Список классов ("Data Class") банка EMBL:
      • ANN: Constructed sequence with annotation
      • CON: Constructed sequence
      • EST: Expressed Sequence Tag
      • GRV: Genome Reviews
      • GSS: Genome Survey Sequence
      • HTC: High Throughput cDNA sequencing
      • HTG: High Throughput Genome sequencing
      • MGA: Mass Genome Annotation
      • PAT: Patent
      • SET: Project set (EMBL WGS Masters only)
      • STD: Standard
      • STS: Sequence Tagged Site
      • TPA: Third Party Annotation
      • TSA: Transcriptome Shotgun Assembly
      • WGS: Whole Genome Shotgun
      • не проиндексирован;
      • не проиндексирован;
      • проиндексирован, 54868004 записей;
      • не проиндексирован;
      • проиндексирован, 24420981 запись;
      • проиндексирован, 524114 записей;
      • проиндексирован, 135664 записей;
      • не проиндексирован;
      • проиндексирован, 6175434 записей;
      • не проиндексирован;
      • проиндексирован, 5752704 записей;
      • проиндексирован, 945908 записей;
      • проиндексирован, 5919 записей;
      • проиндексирован, 3005 записей;
      • не проиндексирован

    3. Список разделов "Divisions" банка EMBL. Для каждого раздела, кроме обозначения, приведены его описание по-русски и число записей в последнем релизе.
       
      • FUN: Грибы
      • HUM: Человек
      • INV: Беспозвоночные
      • MAM: Другие млекопитающие
      • MUS: Домовая мышь
      • PHG: Бактериофаги
      • PLN: Растения
      • PRO: Прокариоты
      • ROD: Грызуны
      • SYN: Синтетические организмы
      • TGN: Трансгенные организмы
      • UNC: Неклассифицированные организмы
      • VRL: Вирусы
      • VRT: Другие позвоночные
      • 2524681 записей
      • 11540219 записей
      • 13679938 записей
      • 8686059 записей
      • 7330487 записей
      • 4896 записей
      • 28334269 записей
      • 675972 записей
      • 1804253 записей
      • 1500620 записей
      • 265445 записей
      • 2956530 записей
      • 624900 записей
      • 9288565 записей
    4. Выбрали три раздела банка EMBL (HUM, ENV и PRO). Определили, сколько стандартных (класса STD) записей появилось в каждом из этих разделов за май 2008 года и за тот же месяц 2007 года. Оформили результаты в виде столбчатой диаграммы.

      Видим, что в каждом из случаев наблюдается ускорение поступления записей в раздел.
       

  2. Ген BAT1 из записи BA000025:
     
  3.  Был вырезан самый длинный кодирующий участок (403477..403687) в отдельный файл:

    Затем на странице http://blast.ncbi.nlm.nih.gov/:

    В результате было получено множество белков, первые 2 обладали одинаковыми показателями E Value(7e-35) и Score (145). Один из этих белков - белок человека, который имеет AC Q13838. В записи EMBL как раз и был этот белок ("UniProtKB/Swiss-Prot:Q13838").

    Данным экзоном кодируется участок белка с 1-ю по 70-ю аминокислоты. При этом выбрана рамка, которая не включает последний нуклеотид. На участке, кодируемом данным экзоном, с 45-го по 73-й аминокислотный остаток лежит Q_MOTIF. Но в белке есть ещё домены, которые определяют его главную функцию. Таким образом, самый длинный экзон гена не обязательно кодирует самое "важное" место белка.

    Белок является РНК-хеликазой. Q motif служит, судя по всему, для контролирования связывания и гидролиза АТФ и представляет потенциальный механизм регулирования активости хеликазы.

    <Третий семестр

    <<Главная страница


    ©ХАЧАТРЯН ЛУСИНЕ, 2008