Последовательности нуклеиновых кислоn
Банк EMBL
GO TO:
  • Сравнение разных записей в EMBL .

    Идентификатор записи EMBL Тип молекулы
    Класс данных
    Раздел EMBL
    Дата создания
    документа
    Описание
    Длина последовательности
    AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli W3110 DNA, complete genome. 4646332
    D16509 genomic DNA STD PRO 29-SEP-1994 Escherichia coli orfA, hemN and glnG genes, complete and partial cds. 3293
    L19201 genomic DNA STD PRO 31-AUG-1993 E. coli chromosomal region from 87.2 to 89.2 minutes. 96484
    U00096 genomic DNA STD PRO 23-FEB-2006 Escherichia coli K12 MG1655, complete genome. 4639675
    X82073 genomic DNA STD PRO 10-OCT-1994 E.coli hemN gene 2042
    Это все записи, найденные по ссылкам в описании моего белка (HEMN_ECOLI). Как сразу видно из таблицы все описанные выше геномы лежат в неклассифицированном разделе STD, и таксономически отнесены в раздел прокариот (PRO). Самая ранняя запись относится к августу 1993-его года, ранние записи - это либо куски полных геномов, либо просто последовательности генов. Полные же геномы появились позже.

  • Сравнение описаний гена Escherichia coli в двух разных записях EMBL

    Последовательности, кодирующие белок HEMN_ECOLI в двух записях банка EMBL

      I II
    ID записи L19201 D16509
    Начало гена в записи 13679 1259
    Конец гена в записи 15058 2632
    Направление гена прямое прямое
    Примечания*    

    Нуклеотидные последовательности моего белка были извлечены из обеих записей и сравнены командой needle. Результат лежит здесь. В соответсвии с ним, процент идентичноси последовательностей составляет 99.4%.

    Таблица различий:
    позиция в алайменте D16509 L19201 позиция в кодоне критичность замены
    699 g s 3 в случае, если под s стоит c, то замена
    критична - смена Glu на Asp
    700 c s 1 в случае, если под s стоит g, то замена
    критична - смена Leu на Val

    Так же у последовательностей различаются 5'-концы:
    D16509: ------atgtc...
    -align: ------|||||
    L19201: gtgagcatgtc...

    Это различие обусловлено тем, что предсказать начало гена тут можно двояко:
    В записи D16509 начало АК последовательности белка выглядит следующим образом:
    MSVQQIDWDLALIQ
    В записи L19201 начало АК последовательности белка выглядит следующим образом:
    MSMSVQQIDWDLALIQ
    В стандартном генетическом коде, метионин кодируется только одним кодоном AUG, в то время как кодон GUG кодирует Валин. Однако в качестве стартового кодона в соответствии с 11-ой трансляционной таблицей (таблица, использующаяся для бактерий и пластид растений) могут выступать, видимо (в зависимости от организма? NTR в соответствующей мРНК? Ещё каких-то причин?), целых 7 кодонов, в том числе валиновый кодон GUG.
    И авторами первой записи ORF была выделена от обычного ATG до "стопа" этой рамки, а во второй записи авторы почему-то предпочли выделить эту ORF от кодона GUG - которой по многим таблицам генетического кода так же может выступать как стартовый. Различные таблицы генетических кодов (см. раздел 7.5.5)

  • Знакомство с записью гена из эукариотического генома AL355388 /gene="RAB25"
    Ген RAB25:
    прямая цепь--[155081..155123]--...--[163840..163967]--->

    с общим количеством экзонов равным 5.
    Самый длинный экзон: [159591..159786] - 196нт
    Самый короткий экзон: [155081..155123] - 43нт
    Самый длинный интром: ..155123]--[159591.. - 4037нт
    Самый короткий интрон: ..163431]--[163840.. - 410нт

  • © designed by Alex Makarov