Главная страница > Третий семестр > Банк EMBL 

Банк EMBL


    Сравнение разных записей EMBL

    С помощью SRS* были получены записи банка EMBL, коды доступа (AC) которых указаны в записи SwissProt белка GlmS E.coli. Информация о шести полученных записях приведена в табл. 1.

    Все записи содержат участки последовательностей или полные последовательности геномной ДНК различных штаммов E.coli. Две записи, созданные в 2006 г., представляют собой полные последовательности геномной ДНК штаммов W3110 и K12 MG1655 (их длина незначительно различается и составляет приблизительно 4.6×106 н.п.). Две другие записи, созданные в 1982 и 1988 гг., содержат последовательности 5'-концевого участка транспозона Tn7 и его сайта встраивания (attTn7). Так как сайт встраивания транспозона располагается в терминаторе транскрипции гена glmS, эти записи также содержат прилегающий участок последовательности этого гена. Целью секвенирования, по-видимому, являлось изучение attTn7, поэтому длина секвенированных последовательностей не превышает 1000 н.п.

    Остальные две записи содержат различные фрагменты геномной ДНК E.coli, содержащие несколько генов (созданы в 1985 и 1993 гг.). Их длина составляет приблизительно 104 - 105 н.п. Из описания (DE) этих записей можно сделать следующие выводы:

    Все рассмотренные записи относятся к классу стандартных записей (STD). Этот класс данных объединяет неклассифицированные записи, которые не отнесены к различным специальным классам (например, CON - записи, полученные путем объединения других записей (сегментов), аннотации которых составлены из аннотаций сегментов, или ANN - записи, полученные путем объединения сегментов и имеющие свою собственную аннотацию; см. документацию к EMBL). Так как E.coli является прокариотическим организмом, все записи находятся в разделе EMBL, содержащем нуклеотидные последовательности прокариот (PRO).


*  Запрос SRS, позволяющий получить все записи сразу: "((((([embl-AccNumber:AP009048] | [embl-AccNumber:U00096]) | [embl-AccNumber:L10328]) | [embl-AccNumber:M18980]) | [embl-AccNumber: V00620]) | [embl-AccNumber: X01631]) ".


    Табл. 1. Записи банка EMBL, AC которых приведены в записи SwissProt белка GlmS E.coli.

Идентификатор записи EMBL
Тип молекулы
Класс данных
Раздел EMBL
Дата создания документа
Описание
Длина последовательности, bp
AP009048
геномная ДНК
стандартная запись
Прокариотические последовательности
22.01.2006
Полная геномная ДНК E.coli W3110
4646332
U00096
геномная ДНК
стандартная запись
Прокариотические последовательности
23.02.2006
Полная геномная ДНК E.coli K12 MG1655
4639675
L10328
геномная ДНК
стандартная запись
Прокариотические последовательности
19.05.1993
Участок геномной ДНК E.coli от 81.5 до 84.5 мин
136254
M18980
геномная ДНК
стандартная запись
Прокариотические последовательности
14.10.1988
Сайт встраивания транспозона Tn7 в ДНК E.coli (attTn7) и 3'-концевой участок гена glmS
86
V00620
геномная ДНК
стандартная запись
Прокариотические последовательности
3.11.1982
левый концевой участок транспозона Tn7, встроившегося в терминатор транскрипции гена glmS E.coli
926
X01631
геномная ДНК
стандартная запись
Прокариотические последовательности
7.11.1985
Ориджин репликации ДНК E.coli OriC, гены gid, unc, EcoURF-1 и glmS
14526
 
 

    Сравнение описаний гена glmS E.coli в двух разных записях EMBL

    Для проведения сравнения были выбраны записи V00620 (5'-концевой участок транспозона Tn7, встроившегося в терминатор транскрипции гена glmS E.coli) и X01631 (ориджин репликации ДНК E.coli OriC, гены gid, unc, EcoURF-1 и glmS). В каждой из записей выбран ген, кодирующий белок GlmS E.coli (поле /db_xref описания такого гена содержит ссылку на запись UniProt P17169, соответствующую GlmS E.coli). Следует отметить, что в поле DE записи X01631 искомый ген назван glmS, а в поле /note описания гена - gluS. Так как банк EMBL не является аннотируемым, подобное расхождение может быть ошибкой. Информация о последовательностях генов, кодирующих GlmS E.coli и содержащихся в различных записях, представлена в табл. 2.


    Табл. 2. Последовательности, кодирующие белок GlmS E.coli, в двух разных записях банка EMBL.

ID записи
V00620
X01631
Начало гена в записи
1
12369
Конец гена в записи
364
14198
Направление гена
прямое
прямое
Примечания
  1. Запись содержит информация только о 3'-концевом участке последовательности гена
  2. В последовательность терминатора транскрипции гена встроен транспозон Tn7 (начиная с 390-й н.п.)
  3. Терминатор транскрипции гена (369-389) включает gc-богатые участки, образующие шпильку на транскрипте, и участок, насыщенный остатками t(u), и, следовательно, является ρ-независимым
  1. В составе последовательности терминатора транскрипции гена расположен возможный участок встраивания транспозона Tn7 (14223-14224)
  2. Указаны координаты -35 и -10 (Прибнов-бокс) последовательностей промотора гена (14357-14362 и 14379-14383 соответственно)
  3. Терминатор транскрипции гена (14207-14227) включает gc-богатые участки, образующие шпильку на транскрипте, и участок, насыщенный остатками t(u), и, следовательно, является ρ-независимым
 

    Для сравнения последовательностей генов с помощью программы needlen пакета EMBOSS было построено их глобальное выравнивание по алгоритму Нидельмана-Вунша (рис. 1). Для построенного выравнивания процент идентичности последовательностей составляет 19.9%. Это объясняется тем, что запись V00620 содержит последовательность только 3'-концевого участка гена, а запись X01631 - полную последовательность гена. При этом 3'-концевой участок последовательности гена, содержащийся в V00620, полностью идентичен соответствующему участку гена из X01631. Учитывая вырожденность генетического кода (практически каждый третий нуклеотид не находится под давлением отбора), можно сделать вывод о том, что в обоих случаях была секвенирована последовательность ДНК одного и того же штамма E.coli (или близких штаммов).





  V00620             1                 gatctcttacattcacgctgaagcctacgctgct     34  
                                     ||||||||||||||||||||||||||||||||||
  X01631          1451 cattgaagttgaaagagatctcttacattcacgctgaagcctacgctgct   1500

  V00620            35 ggcgaactgaaacacggtccgctggcgctaattgatgccgatatgccggt     84
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
  X01631          1501 ggcgaactgaaacacggtccgctggcgctaattgatgccgatatgccggt   1550

  V00620            85 tattgttgttgcaccgaacaacgaattgctggaaaaactgaaatccaaca    134
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
  X01631          1551 tattgttgttgcaccgaacaacgaattgctggaaaaactgaaatccaaca   1600

  V00620           135 ttgaagaagttcgcgcgcgtggcggtcagttgtatgtcttcgccgatcag    184
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
  X01631          1601 ttgaagaagttcgcgcgcgtggcggtcagttgtatgtcttcgccgatcag   1650

  V00620           185 gatgcgggttttgtaagtagcgataacatgcacatcatcgagatgccgca    234
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
  X01631          1651 gatgcgggttttgtaagtagcgataacatgcacatcatcgagatgccgca   1700

  V00620           235 tgtggaagaggtgattgcaccgatcttctacaccgttccgctgcagctgc    284
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
  X01631          1701 tgtggaagaggtgattgcaccgatcttctacaccgttccgctgcagctgc   1750

  V00620           285 tggcttaccatgtcgcgctgatcaaaggcaccgacgttgaccagccgcgt    334
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
  X01631          1751 tggcttaccatgtcgcgctgatcaaaggcaccgacgttgaccagccgcgt   1800

  V00620           335 aacctggcaaaatcggttacggttgagtaa    364
                     ||||||||||||||||||||||||||||||
  X01631          1801 aacctggcaaaatcggttacggttgagtaa   1830

    Рис. 1. Участок выравнивания последовательностей генов, кодирующих GlmS E.coli, взятых из записей EMBL V00620 и X01631. Выравнивание построено программой needlen.


   
    Запись гена из эукариотического генома

    Был рассмотрен фрагмент записи EMBL BA000025, содержащий описание гена DPB2 человека. Ген DPB2 кодирует РНК-хеликазу и, как подавляющее большинство эукариотических генов, состоит из кодирующих и некодирующих участков (экзонов и интронов соответственно). Ген расположен на прямой цепи (в описании координат CDS отсутствует слово complement). Структура транслируемых участков гена схематично изображена ниже:

--[1269193..1269538]--...--[1288824..1289064]-->

    Следует отметить, что координаты первого и последнего экзонов, указанные в полях exon, отличаются от координат первого и последнего транслируемых участков, указанных в поле CDS (координата 5'-конца первого экзона меньше, чем координата 5'-конца первого кодирующего участка; координата 3'-конца последнего экзона больше, чем координата 3'-конца последнего кодирующего участка). Вычисления показали, что суммарная длина экзонов, деленная на три в связи с триплетностью генетического кода, превышает длину полипептидной цепи, указанной в записи. При этом суммарная длина кодирующих участков, деленная на три, соответствует длине полипептидной цепи. Возможно, авторы записи включили в состав первого и последнего экзонов близлежащие регуляторные последовательности, не кодирующие аминокислотные остатки (например, промотор и терминатор транскрипции).

    Ген DPB2 содержит 20 экзонов и 19 интронов. Длины самых коротких и самых длинных экзонов и интронов приведены в табл. 3 (вычисления проводились с помощью электронной таблицы Excel). Средняя длина экзона составляет 168 bp, что в пять раз меньше средней длины интрона (869 bp). Суммарная длина экзонов также значительно меньше суммарной длины интронов и составляет приблизительно 17% от общей длины гена. Таким образом, большая часть последовательности гена DPB2 человека представлена некодирующими участками.


    Табл. 3. Длины самых коротких и самых длинных экзонов и интронов гена DPB2 человека.

 
Экзон
Интрон
самый длинный
345
4668
самый короткий
56
79
средняя длина
168
869

 


© Куравский Михаил Львович, 2006