 |
 |
Работа с EMBL
   
- Сравнение разных записей в EMBL.
Результаты.
C помощью SRS произвели поиск в БД EMBL по пяти кодам доступа
(Acession number). Последние были найдены в ссылках поля DR документа
Swiss-Prot, описывающего белок аспартатаминотрансферазу, на другие
базы данных. Наиболее значимые сведения, полученные в
результате поиска, приведены ниже.
Таблица 1. Описание документов EMBL.
Иденти-фикатор записи EMBL |
Тип молекулы |
Класс данных |
Раздел EMBL |
Дата создания документа |
Описание |
Длина последователь-ности (bp) |
AP009048 |
Геномная ДНК |
STD (стандарт, стандартная запись) |
PRO (Прокариоты) |
22 января 2006 г |
ДНК Escherichia coli W3110, полный геном |
4646332 |
U00096 |
то же |
STD (стандарт, стандартная запись) |
PRO (Прокариоты) |
23 февраля 2006 г |
Полный геном Escherichia coli K12 MG1655 |
4639675 |
X03629 |
то же |
то же |
то же |
2 июля 1986 года |
Ген E. coli aspC, кодирующий
аспартат-аминотрансферазу |
1415 |
X05904 |
то же |
то же |
то же |
2 апреля 1988 г |
Ген E. coli aspC, кодирующий
аспартат-аминотрансферазу |
1331 |
D90730 |
"Неопределенная", "неназначенная" ДНК |
то же |
то же |
31 октября 1996 |
Заменена записью AP009048 20 января 2006 года |
1 |
D90731 |
то же |
то же |
то же |
31 октября 1996 |
Заменена записью AP009048 20 января 2006 года |
1 |
Обсуждение.
Относительно моего белка AAT_ECOLI в базе данных EMBL
хранится 6 записей. Они были найдены по запросу, содержащему всего пять
кодов доступа. Это количественное противоречие (известно, что каждому AC
соответствует единственная запись) можно объяснить, используя
Description записей, приведенные в таблице. Имеются данные о замене двух
из них (D90730 и D90731) одной (AP009048). Последний ID (в EMBL ID и
один из AC – первый по порядку, как известно, одинаковы) и отсутствует
среди данных запроса, то есть в документе Swiss-Prot. Причина
несоответствия становится понятной, если сравнить документ Swiss-Prot,
полученны с kodomo, и запись
последнего релиза (5.09.2006), найденную с помощью SRS, где уже содержатся ссылки лишь на четыре документа EMBL, и рассмотреть
дату замены записей в EMBL (20.01.2006). Ясно, что на сервере ФББ
хранится версия, несколько устаревшая относительно информации в БД на
данный момент.
Таким образом, здесь мы видим недостаток частого обновления
информации в базах данных – пример временного несоответствия между
документами разных БД, полученных из разных источников, из-за которого
при случае могут быть не приняты во внимание некоторые данные.
Кроме этого момента, очень интересны некоторые особенности, касающиеся найденных записей. Коротко охарактеризуем каждую
колонку таблицы 1.
- Идентификатор
- Как видим, он не несет никакой смысловой нагрузки, являясь набором
символов, построенным по принципу "первые 1–2 буквы, далее цифры".
- Тип молекулы
- Приведено два типа: геномная ДНК и "unassigned DNA" –
неопределенная, неназначенная ДНК. В роли последней выступают как раз
замененные записи. Чтобы понять, что означает такая характеристика,
рассмотрим эти записи более детально. В документе того релиза,
где они еще существуют как самостоятельные записи, в поле с меткой ID
написано "геномная ДНК". Значит, с заменой на другую запись этот
"статус" сменился на иной, и, думается "неопределенный" (unassigned) и
значит "замененный".
- Класс данных
- Отнесение всех записей к классу данных "стандарт" говорит об
отсутствии каких-то специфических подходов к получению данных или
необычного типа последних (информация взята отсюда).
- Раздел EMBL
- Все исследуемые записи содержат информацию о прокариотной ДНК,
поэтому относятся к разделу "PRO".
- Дата создания документа
- Видно, что полный геном был секвенирован гораздо позже, чем
отдельные гены.
- Описание
- Дается разного рода информация касательно содержания документа
(что описывается – полный геном или отдельный ген) или
"организационных вопросов" (запись может быть заменена другой,
см.выше).
- Длина последовательности.
- Длина дана в парах оснований. Можно сравнить величину отдельного
гена и полного генома (понятно, что последний больше, но насколько? Другими словами, сколько генов данного размера может содержать геном). Длина для "замененных" записей равна 1 bp,
кажется, это может быть связано с их статусом. Такую длину можно
назвать "вырожденной", впрочем, как и сами подобные записи.
- Сравнение описаний гена E.coli в двух разных записях EMBL.
Для сравнения были выбраны два документа со следующими АС: X03629 и X05904 (см. Таблицу 1).
Данные записи содержат информацию
о гене кишечной палочки aspC, кодирующем первичную
структуру "моего" белка AAT_ECOLI. В этом убедились по следующим признакам:
- Последовательности, получающиеся путем трансляции выбранных генов
(информация поля FT, позиции "translation") совпадают с
последовательностью моего белка (информация из файла AAT_ECOLI.fasta).
- С помощью Genedoc можно "транслировать" нуклеотидные
последовательности из файлов 1
и 2,
содержащих CDS генов из исследуемых документов (см. ниже). Если
экспортировать полученное в fasta-формат, а потом сделать
множественное выравнивание двух полученных аминокислотных
последовательностей и последовательности AAT_ECOLI, используя
возможности emma,
получим такую
картину, говорящую об идентичности всех последовательностей.
- В выбранных документах даются ссылки на записи банка PDB,
описывающие пространственную структуру AAT_ECOLI. Некоторые из этих записей использовались в
заданиях
прошлого семестра (документ 1asl, к примеру).
Изучив документы, заполнили таблицу 2, пользуясь в основном
полем с меткой FT (features – свойства), ключом CDS (coding sequence –
кодирующая последовательность).
Таблица 2. Последовательности, кодирующие белок AAT_ECOLI в двух
записях банка EMBL
|
I |
II |
ID записи |
X03629 |
X05904 |
Начало гена в записи |
138 |
10 |
Конец гена в записи |
1328 |
1200 |
Направление гена |
Прямое |
Прямое |
Примечания |
Большее число нуклеотидов (1415) "Избыток" возникает из-за
включения в последовательность информации о регуляторных
5'-участкаx, находящихся в начале последовательности: центрах
связывания рибосомы (для РНК) и сайте начала транскрипции (для
ДНК). Положение их в последовательности описано в поле с меткой
FT, ключом misc_feature (разные свойства).
В другом поле с ключом "promoter" содержится информация о
нахождении в начале последовательности двух потенциальных
промоторов.
Интересно, что особые свойства, то есть дополнительно указанные
регуляторные участки последовательности, приведены одновременно
как для ДНК (сайт инициации транскрипции), так и для
транскрибируемой с нее РНК (сайт связывания рибосомы) в одном
документе для одной и той же последовательности. |
Меньшее число нуклеотидов (1331), так как не
описано и не включено в состав последовательности никаких
5-концевых регуляторных участков, в том числе
промоторов. |
Описанные в "Примечаниях" особенности наглядно
продемонстрированы здесь
– для первого гена и здесь
– для второго. Цветом выделены: красным – стоп-кодоны; оранжевым –
стартовые кодоны; зеленым – потенциальные промоторы: желтым – сайт
связывания рибосомы и синим – сайт инициации транскрипции. Как видим, в
первом документе, в отличие от второго, действительно имеется гораздо
более длинный участок предваряющий старт-кодон и содержащий несколько
регуляторных последовательностей.
С помощью команды UNIX seqret и имеющихся сведений
о начале, конце и направлении кодирующих последовательностей (см.
таблицу 2) получили два документа. Используя программу needle,
сделали глобальное выравнивание содержащихся в них последовательностей.
Его можно посмотреть здесь. Процент идентичности этого выравнивания равен 100,
все позиции в изучаемых последовательностях совпадают. Это означает, что
между кодирующими последовательностями нет различий. С одной стороны,
судя по информации о "продуктах трансляции", приведенной в каждом из
изучаемых документов, этого можно было ожидать: аминокислотные
последовательности одинаковы. С другой стороны, такой же результат (идентичность первичных структур белков) мог
бы быть получен при наличии несоответствий между кодирующими
последовательностями в виде точечных мутаций, не меняющих смысла кодонов
(вспомним про вырожденность генетического кода!). Как видим,
подтвердилось первое предположение: кодирующие нуклеотидные
последовательности одинаковы.
Ранее были рассмотрены особенности, касающиеся начальной
нетранслируемой области изучаемых генов. Однако, как можно заметить при
рассмотрении вышеуказанных документов msf, нуклеотидные
последовательности не оканчиваются со стоп-кодом. С помощью той же
команды seqret были "вырезаны" последовательности после этого кодона и
"выровнены" (needle). Результат можно увидеть здесь.
Заметно, что последовательности все же не полностью идентичны: имеютсся
гэпы, к примеру. Однако данная область нетранслируема, поэтому различия
не отражаются на первичной структуре белка, которая в обоих случаях
одинакова. Кроме того, видно, что здесь, наоборот, более длинным вляется
конец второй последовательности (запись X05904). О функциональной
нагрузке данных концевых областей ничего не известно, документ EMBL не
дает информации. Однако, если эти участки включены в состав гена в
документе, думается, они имеют какое-то назначение.
Резюмируя, можно заметить, что последовательности,
приведенные в двух разных документах EMBL, по смыслу не отличаются:
результатом их трансляции, как показано выше, являются одинаковые
первичные структуры белков; кодирующие их участки (CDS) идентичны.
Однако разница есть, и она заключается в наличии в одном из документов
(запись X03629) информации о регуляторных участках гена, в основном,
5-концевых. Хотя некоторые из таких участков представлены в обоих
документах (старт- и стоп-кодоны), большинство в X05904 отсутствует.
- Знакомство с записью гена ABC50 из эукариотического
генома
Изучается участок p-плеча 6-й хромосомы человека. ABC50 –
ген, кодирующий АТФ-связывающий белок, индуцируемый ФНО-α
(фактором некроза опухолей-α). Информация о данном белке закодирована на
цепи, комплементарной главной, о чем говорит нам указатель "complement"
перед записью о каждом транслируемом участке последовательности.
Интересно, что в состав экзонов в исследуемом документе EMBL
включаются и регуляторные последовательности. В полях "exon" и "CDS"
информация о начале первого и конце последнего экзона несколько
отличается. Однако нас интересуют прежде всего транслируемые участки,
поэтому при выполнении задания чаще будем пользоваться полем CDS.
В описании положения гена замечены, две, на наш взгляд.
интересные особенности. Во-первых, последовательность гена ABC50,
записанная на комплементарной цепи, находится между двумя генами,
закодированными на главной цепи. Во всех молекулярно-биологических
учебниках подобные факты приводятся как удивительные. Во вторых, в
последовательности есть два STS – sequence tagged site, сайта метки
последовательности. Такие участки, судя по информации, взятой отсюда, –
"картографические метки" последовательности, они могут быть
детектированы с помощью ПЦР. Определение их порядка помогает
картированию региона хромосомы.
- Схема структуры транслируемых участков гена ACB50.
<--{stop1351495..1351661}--...--{1370625..1370697start}--
Приведены последний и первый экзоны, start – обозначает
местоположение старт-кодона, stop – соответственно, стоп-кодона,
стрелка – направление транскрипции гена.
- Общее число экзонов изучаемого гена – 24
- Таблица 3. Максимальные и минимальные длины участков гена
ABC50.
|
Экзон |
Интрон |
Самый длинный |
171 |
5846 |
Самый короткий |
32 |
85 |
Примечание: длина дана в bp (парах оснований).
Расчеты проводились с помощью Excel. В таблице приведены
значения без учета длины регуляторных последовательностей на 5' и
3'-концах. Расчеты, однако, были сделаны для обоих случаев. Как можно
заметить, рассмотрев рабочий документ
Excel, в разных случаях меняется длина самого наибольшего экзона.
То, что "не затрагиваются" интроны, понятно: в изучаемом документе EMBL
регуляторные последовательности включаются в состав экзонов – первого и
последнего. Последний факт очень интересен, так как принято считать, что
результат трансляции экзонов – непосредственно элементы (часто – домены)
целевой аминокислотной последовательности, а регуляторные участки, как известно, ничего не кодируют.
Самый общий вывод, который можно сделать из исследования
записи эукариотического гена – заметная корелляция между сложностью
структуры эукариотического гена и сложностью записи информации о нем.
|