Занятие 2. Банк EMBL

    #1. Сравнение разных записей в EMBL

    Мой белок — DHAS_ECOLI (AC: P0A9Q9).
     

    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
    V00262 linear genomic DNA Standard Prokaryotes 13-JUL-1983 E. coli gene asd coding for aspartic semialdehyde dehydrogenase.
    1674
    U18997 linear genomic DNA Standard Prokaryotes 30-DEC-1994 Escherichia coli K-12 chromosomal region from 67.4 to 76.0 minutes.
    372438
    U00096 circular genomic DNA Standard Prokaryotes 23-FEB-2006 Escherichia coli K12 MG1655, complete genome.
    4639675
    AP009048 circular genomic DNA Standard Prokaryotes 22-JAN-2006 Escherichia coli W3110 DNA, complete genome.
    4646332

    В записи SwissProt были найдены четыре записи EMBL в которых содержится мой белок. Из 4х записей одна (V00262) — аналогична записи о моего белке в EMBL, последовательности в обоих банках полностью идентичны (проверено с помошью needle). Остальные -- записи последовательностей, содержащих мой ген. Последние две — записи полных геномов разных штаммов кишечной палочки. Можно пронаблюдать процесс удешевления и усовершенствования технологий секвенирования: в 1983м году ученые расшифровывали лишь маленький кусочек и, только спустя 10 лет, практически весь геном, и еще через 10 — расшифровать весь геном у нескольких штаммов.

    #2 Сравнение описаний гена Escherichia coli в двух разных записях EMBL

    Последовательности, кодирующие белок DHAS_ECOLI в двух записях банка EMBL:

    I II
    ID записи V00262; U18997;
    Начало гена в записи 240 354514
    Конец гена в записи 1343 355617
    Направление гена Прямое Обратное
    Примечания

    Участок хромосомной ДНК E.coli с 67.4 до 76.0 минуты


    Файлы gene1.fasta, gene2.fasta и gene1-gene2.needle находятся в директории задания.
    Последовательности отличаются единственным нуклеотидом:


    Позиция в последовательности
    Нуклеотид
    Позиция в кодоне
    V00262 1231 c 1
    U18997 35 5505 n

    Замена не синонимична. В первом случае закодирован аргинин, во втором — может стоять любой нуклеотид и, соответственно, может быть закодирован глицин, цистеин, серин или аргинин.

    #3 Знакомство с записью гена из эукариотического генома


    Мне был выделен идентификационные номер AF053356, продукт zonadhesin. С помощью SRS я нашел данную запись в банке EMBL. Схема транслируемых участков выглядит так:

    <[309..578]-..-[2314..2458]-..-[3620..3831]-..-[8786..9180]-..-[12095..12222]-..-
    [12821..12985]-..-[13079..13326]-..-[14784..14928]-..-[15156..15357]-..-[16624..16804]-..-
    [18675..18769]-..-[19928..20039]-..-[20325..20562]-..-[21131..21378]-..-[21722..21863]-..-
    [22834..23036]-..-[24183..24361]-..-[24472..24582]-..-[26030..26173]-..-[27852..27997]-..-
    [28543..28667]-..-[29738..29857]-..-[30045..30186]-..-[32978..33158]-..-[35152..36676]-..-
    [37121..37205]-..-[37491..37762]-..-[41053..41140]-..-[41322..41593]-..-[41773..41919]-..-
    [46462..46608]-..-[46717..46795]-..-[47291..47382]-..-[48230..48383]-..-

    Всего 34 экзона. Самый длинный экзон — 509 нуклеотида. Самый короткий — 27 нуклеотидов. Самый длинный интрон — 1651 нуклеотидов, самый короткий — 31. Подсчет велся при помощи Exсel