Банк нуклеотидных последовательностей EMBL

  1.  Используя систему SRS можно узнать:
    1. Дата последнего проиндекисрованного в системе релиза EMBL 5 сентября 2008 , количество записей в нём - 92831733 (на странице EMBL (Release)
    2. Список классов ("Data Class") банка EMBL,
         Обозначения и описания                     число записей  
                                                  в последнем релизе
      
         ANN: Constructed sequence with annotation    --------
         CON: Constructed sequence                    --------
         EST: Expressed Sequence Tag                  54868004
         GRV: Genome Reviews                          --------
         GSS: Genome Survey Sequence                  24420981
         HTC: High Throughput cDNA sequencing         524114
         HTG: High Throughput Genome sequencing       135664
         MGA: Mass Genome Annotation                  --------
         PAT: Patent                                  6175434
         SET: Project set (EMBL WGS Masters only)     --------
         STD: Standard                                5752704
         STS: Sequence Tagged Site                    945908
         TPA: Third Party Annotation                  5919
         TSA: Transcriptome Shotgun Assembly          3005
         WGS: Whole Genome Shotgun                    --------
      
      Не проиндексированы зхаписи класов ANN, CON, GRV, MGA, SET, WGS - всего 6 классов.
    3. Список разделов ("Divisions") банка EMBL.
         Обозначения и описания             число записей  
                                          в последнем релизе
      
          ENV: Пробы окружающей среды         3614899       
          FUN: Грибы                          2524681       
          HUM: Человек                        11540219      
          INV: Беспозвоночные                 13679938      
          MAM: Другие млекопитающие           8686059       
          MUS: Мышь домовая                   7330487       
          PHG: Бактериофаги                   4896          
          PLN: Растения                       28334269      
          PRO: Прокариоты                     675972        
          ROD: Грызуны                        1804253       
          SYN: Синтетические                  1500620       
          TGN: Трансгенные организмы          265445        
          UNC: Не классифицированные          2956530       
          VRL: Вирусы                         624900        
          VRT: Другие позвоночные             9288565       
      
    4. Возьмем три раздела банка EMBL: HUM (человек), ENV (пробы окружающей среды) и PRO(прокариоты). Определим, сколько записей появилось в каждом из этих разделов за май 2008, 2007 и 2006 лет (я брала промежуток 1-30 мая). Для этого на сайте SRS откроем вкладку Library Page и выберем EMBL (Release), затем переходим на страницу Query Form и задаем нужные параметры поиска - data class, division и entry creation date (я использовала расширеный поиск - Extended Query Form, ссылка в левом нижнем углу страницы со стандартной формой) Таким же образом определим, сколько записей класса STD появилось в этих разделах в указанные промежутки времени. Теперь можно посчитать, сказько появилось записей других классов (не STD). Все полученые результаты занесены в таблицу:

      По этой таблице построены диаграммы:

      Замечаем, что общее число добавляемых записей быстрее всего растет в разделе HUM, достаточно равномерно увеличивается в разделе PRO, а в ENV наблюдается скачек в 2008. Сравнивая число записей класса STD, можно заметить подскок в 2008 в разделе HUM, и равномерный рост остальных разделов. Отмечу также, что число записей других классов, не STD, достоточно мало в разделах ENV и PRO, а вот в разделе HUM наблюдается рост числа добавлений таких записей.



  2.   В записи EMBL с кодом доступа BA000025 c помошью редактора Far (поиск - F7) нашли и вырезали все фрагменты, относящиеся к гену MICB. Все это поместили в файл MICB.embl. В заметках ( /note ) к этому гену есть набор букв и цифр, похожий на AC: U65416 и по нему c помошью quick search в системе SRS нашлось две записи - BA000025 и запись U65416 , которая описывает только этот ген.Итак, пользуясь вырезанным вручную файлом и описанием на SRS найдем информацию о гене:
    направление гена относительно направления, выбранного для записи
    complement - обратное
    число кодирующих участков
    6
    длины первого и последнего кодирующих участков
    434091..434218 - 128 и 445736..445806 - 71
    длины первого и последнего интронов между кодирующими участками
    434218,436469 - 2252 и 438383,445736 - 7354



  3.   Задача: есть документ банка EMBL и координаты фракмента ДНК в нем. Необходимо найти в Swiss-prot соответствующий белок.
    1. Заходим на сервер kodomo-count с помошью Putty
    2. Заводим там рабочую директорию, в которой должен лежать документ EMBL (в данном случе это файл BA000025.embl)
    3. Из этой директории запускаем команду seqret -sask, и вводим следующие параметры (в квадратных скобках указаны параметры по умолчанию)
      intup (gapped) sequence BA000025.embl имя входного файла
      Begin at position [start] - 437570 начало нужного фрагмента
      End at position [end] - 437857 конец нужного фрагмента
      Reverse strand[N] - Y Y, если последовательность в обратном направлении (complement) и по умолчанию N, если в нормальном
      Output sequence(s)[ba000025.fasta] - current.fasta Имя файла с расширением fasta, в который програма запишет нужный фрагмент
    4. Идем на сайт NCBI Blast
    5. Нам нужно по транслированной последовательности НК найти белок, значит нам нужна ссылка blastx
    6. На вход подаем последовательность из полученного файла (current.fasta) и не забываем указать, что искать нужно в Swiss-prot.
    7. Ждем.
    8. Осмысливаем результаты.

    Всего нашлось больше ста белков. Первый белок в выдаче программы blast имеет E-value 4e-49, это и есть искомый белок. Полученная нами последовательность ДНК кодирует фрагмент белка с 110 по 204 АК. Интересно, что в выдачу програмы среди первых 10 находок входят не только записи, относящиеся к человеку, но есть белки из разных обезьян, из мыши, кролика и носорогов. Зачем, спрашивается, эти заниматься ? Да хотябы за тем, чтобы посмотреть пространственную структуру этого белка:

    Это, собственно только цепь А белка MICB, а точнее ее внеклеточный домен, с 1 по 273 АК. Красным выделен тот фрагмент, по которому этот белок и нашелся - с 110 по 204 АК.


  4.  В записи Swiss-Prot, описывающей белок YBEY_ECOLI, надо найти все ссылки на банк EMBL. Поскольку в момент написания этого упражнения сервер kodomo-count не работал, запись Swiss-Prot нашли с помошью системы SRS. В полученном файле найдем ссылки на EMBL:
     
    	DR   EMBL; U82598; AAB40861.1; -; Genomic_DNA.
    	DR   EMBL; U00096; AAC73760.1; -; Genomic_DNA.
    	DR   EMBL; AP009048; BAA35314.1; -; Genomic_DNA.
    C помощью SRS получим необходимую информацию и заполненим таблицу.

    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
    AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli W3110 DNA, complete genome. 4646332
    U00096 genomic DNA STD PRO 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675
    U82598 genomic DNA STD PRO 21-JAN-1997 Escherichia coli genomic sequence of minutes 9 to 12. 136742