Занятие 2. Банк EMBL

  • Сравнение разных записей в EMBL
  • Идентификатор записи EMBL Тип молекулы
    Класс данных
    Раздел EMBL
    Дата создания
    документа
    Описание
    Длина последовательности
    AP009048 геномная ДНК Стандарт Прокариоты 22.01.2006 Escherichia coli W3110 DNA, complete genome 4646332 п.о.
    K02673 геномная ДНК Стандарт Прокариоты 28.01.1986 E.coli pabB gene, coding for p-aminobenzoate synthetase, complete coding sequence. 1623 п.о.
    U00096 геномная ДНК Стандарт Прокариоты 23.02.2006 Escherichia coli K12 MG1655, complete genome 4639675 п.о.
    U07748 геномная ДНК Стандарт Прокариоты 7.04.1994 Escherichia coli ECOR16 p-aminobenzoate synthetase (pabB) gene, partial cds. 1009 п.о.
    U07749 геномная ДНК Стандарт Прокариоты 7.04.1994 Escherichia coli ECOR10 p-aminobenzoate synthetase (pabB) gene, partial cds. 1009 п.о.
    U07762 геномная ДНК Стандарт Прокариоты 7.04.1994 Escherichia coli ECOR8 p-aminobenzoate synthetase (pabB) gene, partial cds. 1009 п.о.

    В файлах присутствуют 2 полных генома E.coli штаммов W3110 и K12, одна полная кодирующая последовательность, а так же три части последовательности(последние 3 строки в таблице)

  • Выбраны 2 последовательности(строки 2 и 4). Ввиду отсутствия второго файла с полной кодирующей последовательностью, был выбран файл с частью белка(полные геномы использовать не рекомендовалось).

    Последовательности, кодирующие белок pabB_ecoli в двух записях банка EMBL

      I II
    ID записи K02673 U07748
    Начало гена в записи 135 1
    Конец гена в записи 1496 1009
    Направление гена на прямой цепи на прямой цепи
    Примечания* полная последовательность участок с 123 по 1121 п.о.;

    K02673             1 atgaagacgttatctcccgctgtgattactttactctggcgtcaggacgc     50
                                                                           
    U07748             0 --------------------------------------------------      0
    
    K02673            51 cgctgaattttatttctcccgcttaagccacctgccgtgggcgatgcttt    100
                                                                           
    U07748             0 --------------------------------------------------      0
    
    K02673           101 tacactccggctatgccgatcatccgtatagccgctttgatattgtggtc    150
                                               ||||||||||||||||||||||||||||
    U07748             1 ----------------------tccgtatagccgctttgatattgtggtc     28
    
    K02673           151 gccgagccgatttgcactttaaccactttcggtaaagaaaccgttgttag    200
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748            29 gccgagccgatttgcactttaaccactttcggtaaagaaaccgttgttag     78
    
    K02673           201 tgaaagcgaaaaacgcacaacgaccactgatgacccgctacaggtgctcc    250
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748            79 tgaaagcgaaaaacgcacaacgaccactgatgacccgctacaggtgctcc    128
    
    K02673           251 agcaggtgctggatcgcgcagacattcgcccaacgcataacgaagatttg    300
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           129 agcaggtgctggatcgcgcagacattcgcccaacgcataacgaagatttg    178
    
    K02673           301 ccatttcagggcggcgcactggggttgtttggctacgatctgggccgccg    350
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           179 ccatttcagggcggcgcactggggttgtttggctacgatctgggccgccg    228
    
    K02673           351 ttttgagtcactgccagaaattgcggaacaagatatcgttctgccggata    400
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           229 ttttgagtcactgccagaaattgcggaacaagatatcgttctgccggata    278
    
    K02673           401 tggcagtgggtatctacgattgggcgctcattgtcgaccaccagcgtcat    450
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           279 tggcagtgggtatctacgattgggcgctcattgtcgaccaccagcgtcat    328
    
    K02673           451 acagtttctttgctgagtcataatgatgtcaatgcccgtcgggcctggct    500
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           329 acagtttctttgctgagtcataatgatgtcaatgcccgtcgggcctggct    378
    
    K02673           501 ggaaagccagcaattctcgccgcaggaagatttcacgctcacttccgact    550
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           379 ggaaagccagcaattctcgccgcaggaagatttcacgctcacttccgact    428
    
    K02673           551 ggcaatccaatatgacccgcgagcagtacggcgaaaaatttcgccaggta    600
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           429 ggcaatccaatatgacccgcgagcagtacggcgaaaaatttcgccaggta    478
    
    K02673           601 caggaatatctgcacagcggtgattgctatcaggtgaatctcgcccaacg    650
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           479 caggaatatctgcacagcggtgattgctatcaggtgaatctcgcccaacg    528
    
    K02673           651 ttttcatgcgacctattctggcgatgaatggcaggcattccttcagctta    700
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           529 ttttcatgcgacctattctggcgatgaatggcaggcattccttcagctta    578
    
    K02673           701 atcaggccaaccgcgcgccatttagcgcttttttacgtcttgaacagggt    750
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           579 atcaggccaaccgcgcgccatttagcgcttttttacgtcttgaacagggt    628
    
    K02673           751 gcaattttaagcctttcgccagagcggtttattctttgtgataatagtga    800
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           629 gcaattttaagcctttcgccagagcggtttattctttgtgataatagtga    678
    
    K02673           801 aatccagacccgcccgattaaaggcacgctaccacgcctgcccgatcctc    850
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           679 aatccagacccgcccgattaaaggcacgctaccacgcctgcccgatcctc    728
    
    K02673           851 aggaagatagcaaacaagcagtaaaactggcgaactcagcgaaagatcgt    900
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           729 aggaagatagcaaacaagcagtaaaactggcgaactcagcgaaagatcgt    778
    
    K02673           901 gccgaaaatctgatgattgtcgatttaatgcgtaatgatatcggtcgtgt    950
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           779 gccgaaaatctgatgattgtcgatttaatgcgtaatgatatcggtcgtgt    828
    
    K02673           951 tgccgtagcaggttcggtaaaagtaccagagctgttcgtggtggaaccct   1000
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           829 tgccgtagcaggttcggtaaaagtaccagagctgttcgtggtggaaccct    878
    
    K02673          1001 tccctgccgtgcatcatctggtcagcaccataacggcgcaactaccagaa   1050
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           879 tccctgccgtgcatcatctggtcagcaccataacggcgcaactaccagaa    928
    
    K02673          1051 cagttacacgccagcgatctgctgcgcgcagcttttcctggtggctcaat   1100
                         ||||||||||||||||||||||||||||||||||||||||||||||||||
    U07748           929 cagttacacgccagcgatctgctgcgcgcagcttttcctggtggctcaat    978
    
    K02673          1101 aaccggggctccgaaagtacgggctatggaaattatcgacgaactggaac   1150
                         |||||||||||||||||||||||||||||||                   
    U07748           979 aaccggggctccgaaagtacgggctatggaa-------------------   1009
    
    K02673          1151 cgcagcgacgcaatgcctggtgcggcagcattggctatttgagcttttgc   1200
                                                                           
    U07748          1009 --------------------------------------------------   1009
    
    K02673          1201 ggcaacatggataccagtattactatccgcacgctgactgccattaacgg   1250
                                                                           
    U07748          1009 --------------------------------------------------   1009
    
    K02673          1251 acaaattttctgctctgcgggcggtggaattgtcgccgatagccaggaag   1300
                                                                           
    U07748          1009 --------------------------------------------------   1009
    
    K02673          1301 aagcggaatatcaggaaacttttgataaagttaatcgtatcctgaagcaa   1350
                                                                           
    U07748          1009 --------------------------------------------------   1009
    
    K02673          1351 ctggagaagtaa   1362
                                     
    U07748          1009 ------------   1009
     
    Идентичность выравнивания - 74.1 %. Это связано исключительно с тем, что вторая последовательность - лишь участок полной кодирующей последовательности. На общих участках последовательности полностью идентичны.

  • Знакомство с записью гена DNL1L из эукариотического генома Homo sapiens(L44140 - ID в EMBL)
  • Данный ген находится на комплементарной цепи.
    Согласно данным файла L44140, данный ген занимает участок с 72197 по 82492 остатки. CDS состоит из 7 фрагментов:

    FT   CDS             join(complement(75869..76003),complement(75430..75518),
    FT                   complement(75263..75349),complement(73958..74058),
    FT                   complement(73705..73817),complement(73378..73626),
    FT                   complement(73143..73277)
    

    При этом в гене присутствуют следующие экзоны(9 штук):
    FT   exon            complement(72196..73277)
    FT   exon            complement(73378..73626)
    FT   exon            complement(73705..73817)
    FT   exon            complement(73958..74058)
    FT   exon            complement(75263..75349)
    FT   exon            complement(75430..75518)
    FT   exon            complement(75869..76090)
    FT   exon            complement(79545..79629)
    FT   exon            complement(82322..82482)
    

    Если рассмотреть теперь CDS, то она охватывает часть первого экзона (нумерацию ведём по приведённому списку), полностью 2–6 экзоны и часть седьмого. Это также понятно, поскольку набор экзонов представляет собой нуклеотидную последовательность, остающуюся после сплайсинга. Очевидно, этот фрагмент может не совпадать с участком между старт-кодоном и стоп-кодоном. Действительно, на 73143–73145 позициях стоит триплет TCA (так как наш ген расположен на комплементарной цепи, то и триплет комплементарен «привычному» TGA), а на 76001–76003 позициях – триплет CAT (комплементарный старт-кодону ATG). CDS целиком лежит внутри экзонов (то есть, не затрагивает интронов), что тоже понятно.

    • Схема участков гена(изображены только первый и последний экзоны)
      <-[72196..73277]--...--[82322..82482]----
    • Тогда общее число экзонов в гене - 9.
  • На главную страницу >>>

    © Гурьянова Наталья Николаевна