На главную страницу третьего семестра.

Работа с БД EMBL.


1. Сравнение разных записей в EMBL.


Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания документа Описание Длина последовательности
M21446 genomic DNA (геномная ДНК)  STD (стандартный) PRO (Прокариоты,Prokaryotes)  22-апреля-1989   E.coli полные рамки считывания генов N-ацетил-гамма-семиаденилат дегидрогеназы (argC), N-ацетилглутамат киназы (argB) и 5'-конец гена аргининосукцинат лиазы (argH) 2117 н.о.(нуклеотидных оснований) 
U00006  genomic DNA (геномная ДНК)  STD (стандартный) PRO (Прокариоты,Prokaryotes)  22-сентября-1993  E. coli участок хромосомы c 89.2 до 92.8 минут*.   176195 н.о. 
U00096  circular genomic DNA (кольцевая геномная ДНК)  STD (стандартный) PRO (Прокариоты,Prokaryotes)  23-февраля-2006   Escherichia coli K-12 MG1655, complete genome (полный геном). 4639675 н.о. 

*Примечание: очевидно, кодировка участков митотических хромосом, вероятно берущая основы от цитохимических описаний при окраске по Гимзе и Q-методу (там ещё используются обозначения q - длинное плечо, p - короткое плечо и номер участка хромосомы)

Резюмe


Данные таблицы свидетельствуют о том, что информацию о белке ARGB_ECOLI в геноме бактерии Escherichia coli можно подчерпнуть в трех разных записях банка нуклеотидных последовательностей EMBL. Их AC numbers следующие: U00006, U00096, M21446. Различия, наиболее существенные для поля зрения исследователя находятся в колонке Description (см. "Описание" по-русски), хотя разные данные также есть в колонке "дата создания", но эти различия не так важны для нас (хотя, может для истории...). Можно заметить, что одна запись (U00096) охватывает полный геном кольцевой молекулы ДНК, в отличие от первых двух: запись M21446 охватывает последовательность трех генов (одну лишь частично), а U00006 - определенный сегмент хромосомы (между 89.2 и 92.8 минутами). Очевидно, что в данном задании нам полезнее выбрать первую запись, так как она меньше по объему и с ней проще работать. Соответственно различаются длины последовательностей ДНК в этих записях: размер полного генома - более 4 млн. нуклеотидов, когда для второй записи величина порядка сотен тысяч, а для первой - всего пара тысяч. Давайте попробуем посмотреть на полученные данные с математической точки зрения. Длина белковой последовательности составляет 258 а.о. В последовательности ДНК это будет 774 нуклеотидов - это размер открытой рамки считывания (ORF). Но кроме неё обычный прокариотический ген также может содержать регуляторные последовательности (промотор, оператор или аттенуатор и др, исходя из предположения, что многие гены прокариотических организмов, участвующие в обеспечении определенного метаболитического пути, организованы в опероны, возможно как в моем случае для генов argC, argB, argH), 5'-нетранслируемая область, 3'-нетранслируемая область. Поэтому величина размера одного гена приблизительно тысяча н.о. С этой оценкой неплохо коррелирует размер первой записи, в которой аннотировано два полных гена и 5'-конец третьего. Поэтому используя как приближение среднего размера гена в 1000 н.о., то если бы весь геном E.coli кодировал белки, то в нем их было бы около 4640 - сумасшедшая величина для бактериального генома. Так как такого нет в природе, то очевидно, что в последовательности генома есть некодирующие последовательности ДНК.

2. Сравнение описаний гена Escherichia coli в двух разных записях EMBL

Последовательности, кодирующие белок такой-то в двух записях банка EMBL

  I II
ID записи M21446 U00006
Начало гена в записи 1129 21254
Конец гена в записи 1905 22030
Направление гена Прямое Прямое
Примечания* особенностей для гена argB обнаружено не было есть CG Site No. 1020

Для сравнения нуклеотидных последовательностей генов белка ARGB_ECOLI в составе хромосомной ДНК, было сделано следующее: вытащены последовательности генов argB из участков хромосом, указанных в записи EMBL и выравнены друг с другом с помощью программы needle. В результате имеем полное сходство последовательностей генов белка ARGB_ECOLI в записях, различающихся на 4-е года по дате публикации, что говорит об относительной неизменности генов в короткие периоды времени.

 Aligned_sequences: 2
 1: M21446
 2: U00006
 Matrix: EDNAFULL
 Gap_penalty: 10.0
 Extend_penalty: 0.5

 Length: 777
 Identity:     777/777 (100.0%)
 Similarity:   777/777 (100.0%)
 Gaps:           0/777 ( 0.0%)
 Score: 3885.0
 

M21446             1 atgatgaatccattaattatcaaactgggcggcgtactgctggatagtga     50
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006             1 atgatgaatccattaattatcaaactgggcggcgtactgctggatagtga     50

M21446            51 agaggcgctggaacgtctgtttagcgcactggtgaattatcgtgagtcac    100
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006            51 agaggcgctggaacgtctgtttagcgcactggtgaattatcgtgagtcac    100

M21446           101 atcagcgtccgctggtgattgtgcacggcggcggttgcgtggtggatgag    150
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           101 atcagcgtccgctggtgattgtgcacggcggcggttgcgtggtggatgag    150

M21446           151 ctgatgaaagggctgaatctgccggtgaaaaagaaaaacggcctgcgggt    200
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           151 ctgatgaaagggctgaatctgccggtgaaaaagaaaaacggcctgcgggt    200

M21446           201 gacgcctgctgatcagatagacattatcaccggagcactggcgggaacgg    250
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           201 gacgcctgctgatcagatagacattatcaccggagcactggcgggaacgg    250

M21446           251 caaataaaaccctgttggcatgggcgaagaaacatcagattgcggccgta    300
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           251 caaataaaaccctgttggcatgggcgaagaaacatcagattgcggccgta    300

M21446           301 ggtttgtttctcggtgacggcgacagcgtcaaagtgacccagcttgatga    350
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           301 ggtttgtttctcggtgacggcgacagcgtcaaagtgacccagcttgatga    350

M21446           351 agagttaggtcatgttggactggcgcagccaggttcgcctaagcttatca    400
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           351 agagttaggtcatgttggactggcgcagccaggttcgcctaagcttatca    400

M21446           401 actccttgctggagaacggttatctgccggtggtcagctccattggcgta    450
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           401 actccttgctggagaacggttatctgccggtggtcagctccattggcgta    450

M21446           451 acagacgaagggcaactgatgaacgtcaatgccgaccaggcggcaacggc    500
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           451 acagacgaagggcaactgatgaacgtcaatgccgaccaggcggcaacggc    500

M21446           501 gctggcggcaacgctgggcgcggatctgattttgctctccgacgtcagcg    550
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           501 gctggcggcaacgctgggcgcggatctgattttgctctccgacgtcagcg    550

M21446           551 gcattctcgacggcaaagggcaacgcattgccgaaatgaccgccgcgaaa    600
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           551 gcattctcgacggcaaagggcaacgcattgccgaaatgaccgccgcgaaa    600

M21446           601 gcagaacaactgattgagcagggcattattactgacggcatgatagtgaa    650
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           601 gcagaacaactgattgagcagggcattattactgacggcatgatagtgaa    650

M21446           651 agtgaacgcggcgctggatgcggcccgcacgctgggccgtccggtagata    700
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           651 agtgaacgcggcgctggatgcggcccgcacgctgggccgtccggtagata    700

M21446           701 tcgcctcctggcgtcatgcggagcagcttccggcactgtttaacggtatg    750
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
U00006           701 tcgcctcctggcgtcatgcggagcagcttccggcactgtttaacggtatg    750

M21446           751 ccgatgggtacgcggattttagcttaa    777
                     |||||||||||||||||||||||||||
U00006           751 ccgatgggtacgcggattttagcttaa    777

3. Изучение записи гена FLOT1 из генома Homo sapiens.


Изображение структуры первого и последнего транслируемых участков гена FLOT1:

Ген расположен на прямой цепи:
       part of exon3          part of exon13
 --[1199991..1200033]--...--[1214043..1214072]--->

Анализируя запись гена FLOT1 в EMBL можно сделать некоторые выводы о строении гена локализованного в шестой хромосоме, сегмента 21 короткого плеча (6p21.)3:
  1. число экзонов в гене равно 13 (причем число экзонов, приходящихся на открытую рамку считывания равно 11). Также хочу обратить внимание на то, что начало рамки считывания НЕ СОВПАДАЕТ с началом второго экзона, а конец ОRF (открытая рамка считывания) - с концом последнего экзона. Хоть это и простая и явная истина, но с точки зрения "первых экспериментальных навыков" вывод из этой истины можно сделать такой: раз не все последовательности экзонов транслируются в белок, то вероятно, что у клетки существуют системы регуляции экспрессии гена на предтрансляционном уровне, связанные с процессом узнавания, прикрепления и продвижения рибосомы по РНК. В принципе, этот факт можно проверить, вырезав фланкирующие ORF участки экзонов и посмотрев, будет ли идти синтез белка.
  2. самый длинный экзон - экзон №13 длинной 416 н.
  3. самый короткий экзон - экзон №10 длинной 45 н.
  4. самый длинный интрон - интрон №8_№9 (нумерованы соответствующие экзоны, между которыми расположен интрон) длинной 9066 н.
  5. самые короткие интроны - интрон №3_№4 и интрон №6_7 - длинной 88 н. каждый.
  6. из некоторых особенностей структуры гена FLOT1 я считаю наличие как на комплементарной, так и на кодирующей ДНК последовательностей STS - относительно короткие участки ДНК, являющимися праймерами в полимеразной цепной реакции (PCR). Это конечно, чисто экспериментальный факт, который никак не сказывается на активности гена, но все же знание положения, где связывается данный праймер, может быть полезно в разных биоинженерных экспериментах по модификации/рестрикции гена.

Данные расчетов длин экзонов и интронов представлены в файле ex_int.xls.



©Володя Рудько