Главная страница Первый семестр Второй семестр Третий семестр

Третий семестр

Банк нуклеотидных последовательностей EMBL

  1.  Пользуясь системой SRS (http://srs.ebi.ac.uk/) были получены следующие данные:
    1. Последний релиз был проиндексирован 5 сентября 2008 года и содержал 92831733 записей.
    2. Список классов банка EMBL
      
          * ANN: Constructed sequence with annotation	* класс не проиндексирован
          * CON: Constructed sequence                 * класс не проиндексирован
          * EST: Expressed Sequence Tag               * 54868004 записей
          * GRV: Genome Reviews                       * класс не проиндексирован
          * GSS: Genome Survey Sequence               * 24420981 записей
          * HTC: High Throughput cDNA sequencing      * 524114 записей
          * HTG: High Throughput Genome sequencing    * 135664 записей
          * MGA: Mass Genome Annotation               * класс не проиндексирован
          * PAT: Patent                               * 6175434 записей
          * SET: Project set (EMBL WGS Masters only)  * класс не проиндексирован
          * STD: Standard                             * 5752704 записей
          * STS: Sequence Tagged Site                 * 945908 записей
          * TPA: Third Party Annotation               * 5919 записей
          * TSA: Transcriptome Shotgun Assembly       * 3005 записей
          * WGS: Whole Genome Shotgun                 * класс не проиндексирован
         
       
    3. Cписок разделов ("Divisions") банка EMBL.
                                 
                  
          * ENV: Environmental Samples   * Примеры окружающей среды         * 3614899 записей  
          * FUN: Fungi                   * Грибы                            * 2524681 записей  
          * HUM: Human                   * Человек                          * 11540219 записей 
          * INV: Invertebrates           * Беспозвоночные                   * 13679938 записей 
          * MAM: Other Mammals           * Другие млекопитающие             * 8686059 записей  
          * MUS: Mus musculus            * Домовая мышь                     * 7330487 записей  
          * PHG: Bacteriophage           * Бактериофаги                     * 4896 записей     
          * PLN: Plants                  * Растения                         * 28334269 записей 
          * PRO: Prokaryotes             * Прокариоты                       * 675972 записей   
          * ROD: Rodents                 * Грызуны                          * 1804253 записей  
          * SYN: Synthetic               * Искусственно синтезированные     * 1500620 записей  
          * TGN: Transgenic              * Трансгенные                      * 265445 записей   
          * UNC: Unclassified            * Некласифицированные              * 2956530 записей  
          * VRL: Viruses                 * Вирусы                           * 624900 записей   
          * VRT: Other Vertebrates       * Другие позвоночные               * 9288565 записей  
           
      
    4. (*) Выберите три-четыре раздела банка EMBL (например, HUM, ENV и PRO). Определите, сколько стандартных (класса STD) записей появилось в каждом из этих разделов за май (или другой месяц до выхода последнего релиза) 2008 года и за тот же месяц 2007 года. Оформите результаты в виде столбчатой диаграммы. Желательны выводы (об ускорении/замедлении поступлений в данные разделы).
       
  2.   Информация о гене NG23 из записи BA000025.
    Oтносительно направления, выбранного для записи ген направлен обратно.
    Число кодирующих участков - 4.
    Длина первого кодирующего участка - 96, а последнего - 114.
    Длина первого интронов между кодирующим участками - 246, а последнего - 276.

     
  3.  Самый длинный кодирующий участок был вырезан в отдельный файл ВА000025.fasta с помощью программы
    seqret - sask. На вход программы был дан файл ВА000025.embl. Самый длинный кодирующий участок был третьим по счету (180462-180602).
    Далее на странице http://blast.ncbi.nlm.nih.gov/ была выбрана программа blastx, которая находит белковые последовательности из базы данных SwissProt, соответствующие нуклеотидной последовательности, данной на вход.
    Первый найденный белок и есть искомый (/db_xref="UniProtKB/Swiss-Prot:Q5SSQ6"), с номером Q5SSQ6. Заданный экзон кодирует часть белка из 47 аминокислотных остатков c 39 по 85.
     
  4.  В записи Swiss-Prot, описывающей белок P0A759 NAGB_ECOLI, были найдены все ссылки на банк EMBL.
    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
    M19284 linear genomic DNA STD PRO 3396 16-JUL-1988 E.coli N-acetylglucosamine transport protein (nagE), and glucosamine-6-phosphate deaminase (nagB) genes, complete cds.
    AF052007 linear genomic DNA STD PRO 4596 06-APR-1998 Escherichia coli N-acetylglucosamine-6-phosphate isomerase (nagB), N-acetylglucosamine-6-phosphate deacetylase (nagA), N-acetylglucosamine repressor (nagC), and NagD (nagD) genes, complete cds.
    AP009048 circular genomic DNA STD PRO 4646332 22-JAN-2006 Escherichia coli W3110 DNA, complete genome.
    U00096 (AAC73772.1) circular genomic DNA STD PRO 4639675 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome.

    Во всех записях один тип молекулы - ДНК, стандартный класс данных и все являются прокариотами. Но последние две являются записями полных геномов различных штаммов E.coli, поэтому записи очень длинные и созданы они были недавно. Во всяком случае позднее записей M19284 и AF052007, содержащих информацию об отдельных генах этого же организма.



©MARIA KUZNETSOVA,2008