На главную третьего семестра    На главную

Банк EMBL

  1. Сравнение разных записей в EMBL

    В документе SwissProt, описывающем белок BioA_ECOLI найдены все ссылки на банк EMBL.

    C помощью SRS получена информация, необходимая для заполнения таблицы ниже.

    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
    U00096 genomic DNA STD PRO 23.02.2006 Полный геном Escherichia coli K12 MG1655 4639675
    A11524 unassigned DNA PAT PRO 28.01.1994 Ген BioA gene из E.coli с праймерами 1333
    J04423 genomic DNA STD PRO 20.02.1989 E.coli 7,8-диамино-пеларгониковая кислота (bioA), синтетаза биотина (bioB), синтетаза 7-кето-8-амино-пеларгониковаякислоты (bioF), белок bioC, синтетаза детиобиотина (bioD) 5793
    AP009048 genomic DNA STD PRO 22.01.2006 Полный геном Escherichia coli W3110. 4646332

    Одним из самых больших различий записей является то, что запись A11524 содержит не распознанный ДНК E.coli с праймерами. Отсюда и различие в классе данных этой записи. Остальные записи имеют различие только в дате создания. Так же можно заметить, что описаны две записи, соджержащие полный геном E.coli, они различаются по длине и дате создания. Различия в длине могут объясняться тем, что это геномы разных штаммов.

    Запрос на получение данных о записях БД EMBL;

    "((([embl-ID:J04423*]|[embl-ID:A11524*]|[embl-ID:U00096*])|[embl-ID:AP009048*])"

  2. Сравнение описаний гена Escherichia coli в двух разных записях EMBL

    На основании результатов упражнения 1 выбраны 2 записи для дальнейшего изучения. Взята запись J04423 с частью генома E.coli, содержащей ген bioA, и запись U00096 с полным геномом. Последняя запись была выбранана основе соображений того, что запись A11524, которую можно было взять для дальнейшего изучения, содержит нерасшифрованную ДНК. По записям EMBL J04423 и U00096 заполнена таблица ниже

    Последовательности, кодирующие белок BioA_ECOLI в двух записях банка EMBL

      I II
    ID записи J04423 U00096
    Начало гена в записи 633 807191
    Конец гена в записи 1925 808480
    Направление гена обратное обратное
    Примечания В записи указаны гены в белках с идентификаторами UniProtKB/Swiss-Prot P12994, P12995, P12996, P12998, P12999, P13000 Draft entry and computer-readable sequence [1] kindly submitted by A.Otsuka, 09-NOV-1988 20-FEB-1989 (Rel. 18, Created) 04-MAR-2000 (Rel. 63, Last updated, Version 5) Полный геном Escherichia coli K12 MG1655

    Из полученных записей извлечены инуклеотидные последовательности, кодирующие белок BioA_ECOLI, в виде отдельных файлов.

    Параметры выравнивания, полученного программой needle:

    Length: 1293
    Identity:    1289/1293 (99.7%)
    Similarity:  1289/1293 (99.7%)
    Gaps:           3/1293 ( 0.2%)
    Score: 6420.5
    
    Полученное выравнивание в области различий:
    U00096           251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg a-- cgc    298
                         || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| |   .||
    J04423           251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg agc ggc    300
    
    U00096           299 cgc aac -cg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt    347
                         ||| |||  || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||
    J04423           301 cgc aac gcg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt    350
    
    Хотя, на самом деле, скорее всего, более правильным было бы следующее выравнивание, которое по алгоритму программы needle оказалось хуже, чем выданное:
    U00096           251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg a-c -gc    298
                         || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| | |  ||
    J04423           251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg agc ggc    300
    
    U00096           299 cgc aac -cg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt    347
                         ||| |||  || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||
    J04423           301 cgc aac gcg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt    350
    
    Несоответствия двух последовательностей (и как результат гэпы в выравнивании) могли возникнуть из-за мутации E.coli (неизвестно какой штамм секвенировался для получения записи J04423), так как запись EMBL J04423 создана 20.02.1989, это самая старая запись из найденных, а запись U00096 создана 23.02.2006, это самая свежая запись. Возможно, произошли 3 точечные делеции в штаммах, которые секвенировались позже.

    Для сравнения было получено выравнивание гена из записей EMBL A11524, содержит нерасшифрованную ДНК, и J04423. Участок этого выранивания, соответствующий участку для первого выравнивания, в точности повторяет картину превого выравнивания.

    A11524           251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg a-- cgc    298
                         || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| |   .||
    J04423           251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg agc ggc    300
    
    A11524           299 cgc aac -cg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt    347
                         ||| |||  || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||
    J04423           301 cgc aac gcg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt    350
    
    Что только подтверждает гипотезу о мутации E.coli.

  3. Знакомство с записью гена из эукариотического генома

    Для изучения предложен документ EMBL с идентификационным номером BA000025.

    Все вычисления находятся в файле ex2.xls


©Dzhanibekova Anastasia