Банк EMBL


На главную страницу третьего семестра

  1. Сравнение разных записей в EMBL
  2. В документе SwissProt, описывающем изучаемый белок P00805 , найдены все ссылки на банк EMBL.
    Для этого на kodomo-count получен файл с записью SwissProt (команда entret sw:p00805 -auto). В поле DR содержится информация о соответствующих записях EMBL (AC записи: M34277, M34234, U28377, U00096).

    C помощью SRS (см. подсказки) получены данные:

    Идентификатор записи EMBL Тип молекулы
    Класс данных
    Раздел EMBL
    Дата создания
    документа
    Описание
    Длина последовательности (в нуклеотидах)
    U00096 геномная ДНК стандарт прокариоты 23.02.2006 Escherichia coli K12 MG1655, полный геном 4639675
    M34234 геномная ДНК стандарт прокариоты 04.07.1990 ген L-asparaginase II (ansB) из E.coli, полная кодирующая последовательность 1643
    M34277 геномная ДНК стандарт прокариоты 28.06.1990 ген L-asparaginase II (ansB) из E.coli, полная кодирующая последовательность 1530
    U28377 геномная ДНК стандарт прокариоты 05.07.1995 геном Escherichia coli K-12; приблизительно 65-68 минут. 141744

    Сравнение: итак, в EMBL содержится 4 записи (соответственно, равно количеству AC). Во всех случаях, тип молекулы - геномная ДНК [genomic DNA]. Указан класс данных "стандарт" (вообще, классы данных представленны трехбуквенными обозначениями; в моем случае это STD - неклассифицированные записи, неотнесенные к специальным классам). Трехбуквенными обозначениями представленны и разделы EMBL (по таксонам; в моем случае это PRO - прокариоты). Наиболее поздний документ - по записи U00096. Наконец, при изучении поля Description (Описание) выяснилось, что одна из записей - полный геном Escherichia coli K12 MG1655 (соответственно, длина его наибольшая); 2ая и 3ья записи содержат полные кодирующие последовательности [complete cds - последовательности нуклеотидов, соответствующие аминокислотной последовательности белка (включая стоп-кодоны)] исследуемого белка L-аспарагиназы, его предшественника - L-asparaginase II (ansB) precursor. Интересно описание находки с идентификатором U28377. Возможно, здесь речь идет о локализации в хромосоме.

  3. Сравнение описаний гена Escherichia coli в двух разных записях EMBL
  4. На основании результатов предыдущего упражнения выбраны 2 записи для дальнейшего изучения: EMBL:M34234 и EMBL:M34277. Соответствующие записи получены (см. 1 и 2; команда entret embl:*** -auto, где *** - это АС [M34234 или M34277]); на их основании заполнена нижеследующая таблица:

    Последовательности, кодирующие белок ASPG2_ECOLI (AC p00805) в двух записях банка EMBL

      I II
    ID записи M34277 M34234
    Начало гена в записи 385 346
    Конец гена в записи 1431 1392
    Направление гена прямое прямое
    Примечания* Интересно, что совпадают ID и АС в записи EMBL; в FT указаны начало/конец последовательностей сигнального пептида, мРНК, "зрелого" пептида (
    mat_peptide
    - начинается сразу после последовательности сигнального пептида, на 3 основания короче
    cds
    ).
    В FT указаны начало/конец последовательностей sig_peptide - сигнального пептида; misc_feature - региона (с 1400 по 1425; предполагаемый сигнал окончания транскрипции), который представляет биологический интерес и который не попадает под описание каким-либо другим пунктом FT; RBS 335..339 - предполагаемого сайта связывания рибосомы

    Из полученных записей при помощи команды (с последующим ответом на вопросы)

    seqret X.entret -sask
    [где Х - это m34277 либо m34234] извлечены нуклеотидные последовательности, кодирующие белок, в виде отдельных файлов (см. 1 и 2). Сравнение последовательностей сделано программой needle:
    needle m34277.fasta m34234.fasta m34277-m34234.needle -auto
    Процент идентичности равен 100.

  5. Знакомство с записью гена из эукариотического генома
  6. Изучен документ EMBL с идентификационным номером BA000025. Требуется описание гена DBP2 человека; он состоит из кодирующих и некодирующих участков.
    Структура транслируемых участков:

    Ген на прямой цепи

        --[1269193..1269538]--...--[1288824..1289064]--->
    
    Особенность: начало 1ого экзона несовпадает с началом cds; конец последнего экзона не совпадает с концом cds; возможно, последовательности первого и последнего экзонов содержат регуляторные последовательности.


    При выполнении последних заданий использованы возможности Excel.
 
©NADEZDA TUKHTUBAEVA,2006