Главная страница > Третий семестр > Банк EMBL
С помощью SRS* были получены записи банка EMBL, коды доступа (AC) которых указаны в записи SwissProt белка GlmS E.coli. Информация о шести полученных записях приведена в табл. 1.
Все записи содержат участки последовательностей или полные последовательности геномной ДНК различных штаммов E.coli. Две записи, созданные в 2006 г., представляют собой полные последовательности геномной ДНК штаммов W3110 и K12 MG1655 (их длина незначительно различается и составляет приблизительно 4.6×106 н.п.). Две другие записи, созданные в 1982 и 1988 гг., содержат последовательности 5'-концевого участка транспозона Tn7 и его сайта встраивания (attTn7). Так как сайт встраивания транспозона располагается в терминаторе транскрипции гена glmS, эти записи также содержат прилегающий участок последовательности этого гена. Целью секвенирования, по-видимому, являлось изучение attTn7, поэтому длина секвенированных последовательностей не превышает 1000 н.п.
Остальные две записи содержат различные фрагменты геномной ДНК E.coli, содержащие несколько генов (созданы в 1985 и 1993 гг.). Их длина составляет приблизительно 104 - 105 н.п. Из описания (DE) этих записей можно сделать следующие выводы:
ген glmS располагается вблизи точки начала репликации oriC (glmS и oriC входят в состав одного и того же фрагмента последовательности длиной 14 тыс. н.п.),
белок GlmS E.coli, скорее всего, выполняет второстепенную роль в метаболизме, так как он передается на 81-84 мин конъюгации (перед ее завершением).
Все рассмотренные записи относятся к классу стандартных записей (STD). Этот класс данных объединяет неклассифицированные записи, которые не отнесены к различным специальным классам (например, CON - записи, полученные путем объединения других записей (сегментов), аннотации которых составлены из аннотаций сегментов, или ANN - записи, полученные путем объединения сегментов и имеющие свою собственную аннотацию; см. документацию к EMBL). Так как E.coli является прокариотическим организмом, все записи находятся в разделе EMBL, содержащем нуклеотидные последовательности прокариот (PRO).
* Запрос SRS, позволяющий получить все записи сразу: "((((([embl-AccNumber:AP009048] | [embl-AccNumber:U00096]) | [embl-AccNumber:L10328]) | [embl-AccNumber:M18980]) | [embl-AccNumber: V00620]) | [embl-AccNumber: X01631]) ".
Табл. 1. Записи банка EMBL, AC которых приведены в записи SwissProt белка GlmS E.coli.
|
|
|
|
|
|
|
|
|
|
|
|
Полная геномная ДНК E.coli W3110 |
|
|
|
|
|
|
Полная геномная ДНК E.coli K12 MG1655 |
|
|
|
|
|
|
Участок геномной ДНК E.coli от 81.5 до 84.5 мин |
|
|
|
|
|
|
Сайт встраивания транспозона Tn7 в ДНК E.coli (attTn7) и 3'-концевой участок гена glmS |
|
|
|
|
|
|
левый концевой участок транспозона Tn7, встроившегося в терминатор транскрипции гена glmS E.coli |
|
|
|
|
|
|
Ориджин репликации ДНК E.coli OriC, гены gid, unc, EcoURF-1 и glmS |
|
Для проведения сравнения были выбраны записи V00620 (5'-концевой участок транспозона Tn7, встроившегося в терминатор транскрипции гена glmS E.coli) и X01631 (ориджин репликации ДНК E.coli OriC, гены gid, unc, EcoURF-1 и glmS). В каждой из записей выбран ген, кодирующий белок GlmS E.coli (поле /db_xref описания такого гена содержит ссылку на запись UniProt P17169, соответствующую GlmS E.coli). Следует отметить, что в поле DE записи X01631 искомый ген назван glmS, а в поле /note описания гена - gluS. Так как банк EMBL не является аннотируемым, подобное расхождение может быть ошибкой. Информация о последовательностях генов, кодирующих GlmS E.coli и содержащихся в различных записях, представлена в табл. 2.
Табл. 2. Последовательности, кодирующие белок GlmS E.coli, в двух разных записях банка EMBL.
ID записи |
|
|
Начало гена в записи |
|
|
Конец гена в записи |
|
|
Направление гена |
|
|
Примечания |
|
|
Для сравнения последовательностей генов с помощью программы needlen пакета EMBOSS было построено их глобальное выравнивание по алгоритму Нидельмана-Вунша (рис. 1). Для построенного выравнивания процент идентичности последовательностей составляет 19.9%. Это объясняется тем, что запись V00620 содержит последовательность только 3'-концевого участка гена, а запись X01631 - полную последовательность гена. При этом 3'-концевой участок последовательности гена, содержащийся в V00620, полностью идентичен соответствующему участку гена из X01631. Учитывая вырожденность генетического кода (практически каждый третий нуклеотид не находится под давлением отбора), можно сделать вывод о том, что в обоих случаях была секвенирована последовательность ДНК одного и того же штамма E.coli (или близких штаммов).
V00620 1 gatctcttacattcacgctgaagcctacgctgct 34 |||||||||||||||||||||||||||||||||| X01631 1451 cattgaagttgaaagagatctcttacattcacgctgaagcctacgctgct 1500 V00620 35 ggcgaactgaaacacggtccgctggcgctaattgatgccgatatgccggt 84 |||||||||||||||||||||||||||||||||||||||||||||||||| X01631 1501 ggcgaactgaaacacggtccgctggcgctaattgatgccgatatgccggt 1550 V00620 85 tattgttgttgcaccgaacaacgaattgctggaaaaactgaaatccaaca 134 |||||||||||||||||||||||||||||||||||||||||||||||||| X01631 1551 tattgttgttgcaccgaacaacgaattgctggaaaaactgaaatccaaca 1600 V00620 135 ttgaagaagttcgcgcgcgtggcggtcagttgtatgtcttcgccgatcag 184 |||||||||||||||||||||||||||||||||||||||||||||||||| X01631 1601 ttgaagaagttcgcgcgcgtggcggtcagttgtatgtcttcgccgatcag 1650 V00620 185 gatgcgggttttgtaagtagcgataacatgcacatcatcgagatgccgca 234 |||||||||||||||||||||||||||||||||||||||||||||||||| X01631 1651 gatgcgggttttgtaagtagcgataacatgcacatcatcgagatgccgca 1700 V00620 235 tgtggaagaggtgattgcaccgatcttctacaccgttccgctgcagctgc 284 |||||||||||||||||||||||||||||||||||||||||||||||||| X01631 1701 tgtggaagaggtgattgcaccgatcttctacaccgttccgctgcagctgc 1750 V00620 285 tggcttaccatgtcgcgctgatcaaaggcaccgacgttgaccagccgcgt 334 |||||||||||||||||||||||||||||||||||||||||||||||||| X01631 1751 tggcttaccatgtcgcgctgatcaaaggcaccgacgttgaccagccgcgt 1800 V00620 335 aacctggcaaaatcggttacggttgagtaa 364 |||||||||||||||||||||||||||||| X01631 1801 aacctggcaaaatcggttacggttgagtaa 1830 |
Рис. 1. Участок выравнивания последовательностей генов, кодирующих GlmS E.coli, взятых из записей EMBL V00620 и X01631. Выравнивание построено программой needlen.
Был рассмотрен фрагмент записи EMBL BA000025, содержащий описание гена DPB2 человека. Ген DPB2 кодирует РНК-хеликазу и, как подавляющее большинство эукариотических генов, состоит из кодирующих и некодирующих участков (экзонов и интронов соответственно). Ген расположен на прямой цепи (в описании координат CDS отсутствует слово complement). Структура транслируемых участков гена схематично изображена ниже:
--[1269193..1269538]--...--[1288824..1289064]-->
Следует отметить, что координаты первого и последнего экзонов, указанные в полях exon, отличаются от координат первого и последнего транслируемых участков, указанных в поле CDS (координата 5'-конца первого экзона меньше, чем координата 5'-конца первого кодирующего участка; координата 3'-конца последнего экзона больше, чем координата 3'-конца последнего кодирующего участка). Вычисления показали, что суммарная длина экзонов, деленная на три в связи с триплетностью генетического кода, превышает длину полипептидной цепи, указанной в записи. При этом суммарная длина кодирующих участков, деленная на три, соответствует длине полипептидной цепи. Возможно, авторы записи включили в состав первого и последнего экзонов близлежащие регуляторные последовательности, не кодирующие аминокислотные остатки (например, промотор и терминатор транскрипции).
Ген DPB2 содержит 20 экзонов и 19 интронов. Длины самых коротких и самых длинных экзонов и интронов приведены в табл. 3 (вычисления проводились с помощью электронной таблицы Excel). Средняя длина экзона составляет 168 bp, что в пять раз меньше средней длины интрона (869 bp). Суммарная длина экзонов также значительно меньше суммарной длины интронов и составляет приблизительно 17% от общей длины гена. Таким образом, большая часть последовательности гена DPB2 человека представлена некодирующими участками.
Табл. 3. Длины самых коротких и самых длинных экзонов и интронов гена DPB2 человека.
|
|
|
самый длинный |
|
|
самый короткий |
|
|
средняя длина |
|
|
© Куравский Михаил Львович, 2006