Банк нуклеотидных последовательностей EMBL

  1. Общие данные о системе SRS и банке EMBL

    Последний релиз банка EMBL содержит 92831733 записей, он был проиндексирован 5 сентября 2008 года.
              Список классов банка EMBL

        * ANN: Constructed sequence with annotation	* класс не проиндексирован
        * CON: Constructed sequence                 * класс не проиндексирован
        * EST: Expressed Sequence Tag               * 54868004 записей
        * GRV: Genome Reviews                       * класс не проиндексирован
        * GSS: Genome Survey Sequence               * 24420981 записей
        * HTC: High Throughput cDNA sequencing      * 524114 записей
        * HTG: High Throughput Genome sequencing    * 135664 записей
        * MGA: Mass Genome Annotation               * класс не проиндексирован
        * PAT: Patent                               * 6175434 записей
        * SET: Project set (EMBL WGS Masters only)  * класс не проиндексирован
        * STD: Standard                             * 5752704 записей
        * STS: Sequence Tagged Site                 * 945908 записей
        * TPA: Third Party Annotation               * 5919 записей
        * TSA: Transcriptome Shotgun Assembly       * 3005 записей
        * WGS: Whole Genome Shotgun                 * класс не проиндексирован
    

              Список разделов банка EMBL
        * ENV: Образцы из окружающей среды * 3614899 записей
        * FUN: Грибы                       * 2524681 записей
        * HUM: Человек                     * 11540219 записей
        * INV: Беспозвоночные              * 13679938 записей
        * MAM: Другие млекопитающие        * 8686059 записей
        * MUS: Домовая мышь                * 7330487 записей
        * PHG: Бактериофаги                * 4896 записей
        * PLN: Растения                    * 28334269 записей
        * PRO: Прокариоты                  * 675972 записей
        * ROD: Грызуны                     * 1804253 записей
        * SYN: Синтетические               * 1500620 записей
        * TGN: Трансгенные                 * 265445 записей
        * UNC: Неклассифицированные        * 2956530 записей
        * VRL: Вирусы                      * 624900 записей
        * VRT: Другие позвоночные          * 9288565 записей  

               Статистика поступления данных в банк EMBL

    Диаграмма показывает, сколько стандартных записей (класса STD) появилось в каждом из 4 разделов VPL, INV, PRO, HUM за май 2007 и 2008 годов.
    Можно видеть, что число записей, поступивших в банк данных в 2008 году в несколько раз превосходит таковое для 2007 года. Причем больше всего данных поступило в мае 2008 в раздел INV - беспозвоночных организмов.

  2. Информация о гене 1С7 из записи BA000025

    Относительно направления, выбранного для записи, данный ген расположен прямо. Число кодирующих участков равно 4. Длина первого из них составляет 43, последнего - 38 нуклеотидов. Длины первого и последнего интронов между кодирующими участками составляют соответственно 2552 и 294 нуклеотидов.
  3. Поиск белка по кодирующему участку гена

    При помощи программы seqret с опцией -sask была вырезана самая длинная кодирующая нуклеотидная последовательность гена 1C7: 353899..354243.
    Далее на странице http://blast.ncbi.nlm.nih.gov/ была выбрана программа blastx, позволяющая найти белковые последовательности из базы данных SwissProt, соответствующие нуклеотидной последовательности, подаваемой на вход. В поле upload file был подан файл в fasta-формате с вырезанной ранее последовательностью. В поле database был выбран банк swissprot, после чего был запущен поиск.
    В результате нашлось большое количество белков, в том числе и искомый, имеющий номер O14931 (первый в списке выдачи). Участок этого белка с 16 по 108 аминокислотные остатки соответствует экзону.
  4. Характеристика записей EMBL

    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
    AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli W3110 DNA, complete genome. 4646332
    U00096 genomic DNA STD PRO 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675
    Обе имеющиеся записи относятся к классу данных STD и описывают молекулу ДНК организма Escherichia coli.

На главную страницу
К работам третьего семестра 


© Денисенко Елена, 2007