Третий семестр

Банк EMBL

  1. Сравнение разных записей в EMBL
  2. В документе SwissProt, описывающем мой белок GLMU_ECOLI были найдены 3 ссылки на банк EMBL.

    C помощью SRS получена следующая информация:
    Идентификатор записи EMBL Тип молекулы
    Класс данных
    Раздел EMBL
    Дата создания
    документа
    Описание
    Длина последовательности
     U00096  геномная ДНК  STD  PRO  23-FEB-2006  Escherichia coli K12 MG1655, complete genome.  4639675
     L10328  геномная ДНК  STD  PRO  19-MAY-1993  E. coli; the region from 81.5 to 84.5 minutes.  136254
     X01631  геномная ДНК  STD  PRO  07-NOV-1985  E. coli origin of replication oriC and genes gid, unc, EcoURF-1 and glmS  14526

    Первая запись отличается от остальных двух тем, что содержит полный геном. Также различны даты создания этих документов.

  3. Сравнение описаний гена Escherichia coli в двух разных записях EMBL
  4. На основании результатов упр.1 были выбраны 2 записи L10328 и X01631, содержащие часть генома, для дальнейшего изучения.

    С помощью команд:

    entret embl:L10328 -auto

    entret embl:L10328 -auto

    на kodomo-count.cmm.msu.ru были получены эти записи EMBL.

    Причем запись EMBL для L10328 содержит описание 2 последовательностей, кодирующих мой белок (АС P0ACC7) ссылка.

    Последовательности, кодирующие белок GLMU_ECOLI в двух записях банка EMBL

      I II
    ID записи  L10328  X01631
    Начало гена в записи  103221;104020  10837
    Конец гена в записи  104054;104592  12207
    Направление гена  обратное; обратное  прямое
    Примечания*  для L10328 курсивом приведены данные для 2 последовательностей  

    Командой seqret X.entret -sask (X: L10328/X01631) из полученных записей были извлечены нуклеотидные последовательности, кодирующие белок GLMU_ECOLI, в виде отдельных файлов.

    В записи L10328 была вырезана первая последовательность. Для сравнения последовательностей была использована программа needle. Значение Identity выравнивания составило 60,7 %. Тем неменее нельзя сказать, что последовательности сильно различаются. Длина последовательности больше на 500 нуклеотидов в начале. У второй последовательности в выравнивании в начале стоит 500 гэпов. А в остальном они практически полностью совпадают.

    Список имеющихся различий:
    позиция от нач. код. пос-ти нуклеотид в L10328 нуклеотид в X01631 позиция в кодоне синонимичность замены
    21 s(с или g) c 3 нет
    22 s(g или c) g 1 нет
    .

    Так как низкий процент Identity для выравнивания обусловлен сильным различием длин изучаемых последовательностей, было построено выравниваение для исходной последовательности из записи X01631 и объединенных в одну последовательностей из L10328. Значение Identity выравнивания составило 99,8%.

    Список различий приведен в виде таблицы:
    позиция от нач. код. пос-ти нуклеотид в L10328 нуклеотид в X01631 позиция в кодоне синонимичность замены
    535 g - 1 -
    559 s c 1 нельзя определить однозначно
    560 s g 2 нельзя определить однозначно
    .

  5. Знакомство с записью гена из эукариотического генома
  6. Был рассмотрен документ EMBL с идентификационным номером BA000025.