Банк EMBL

На главную страницу семестра

Сравнение разных записей в EMBL

В документе SwissProt, описывающем мой белок (AC=P03007), нашли все ссылки на банк EMBL, их оказалось 6,

C помощью SRS получили информацию, необходимую для заполнения таблицы.

Идентификатор записи EMBL Тип молекулы
Класс данных
Раздел EMBL
Дата создания
документа
Описание
Длина последовательности
X04027 genomic DNA (геномная ДНК) STD (стандартный) PRO (прокариоты) 18-NOV-1986 E. coli mutD(dnaQ)-rnh region for DNA polymerase III epsilon subunit and RNAase H 1592
K00985 genomic DNA (геномная ДНК) STD (стандартный) PRO (прокариоты) 13-JUN-1985 E.coli dnaQ (mutD) gene encoding DNA polymerase III epsilon subunit and ribonuclease H (rnh) gene, complete cds. 1592
U00096 genomic DNA (геномная ДНК) STD (стандартный) PRO (прокариоты) 23-FEB-2006 Escherichia coli K12 MG1655, complete genome 4639675
AP009048 genomic DNA (геномная ДНК) STD (стандартный) PRO (прокариоты) 22-JAN-2006 Escherichia coli W3110 DNA, complete genome 4646332
U70214 genomic DNA (геномная ДНК) STD (стандартный) PRO (прокариоты) 22-SEP-1996 Escherichia coli chromosome minutes 4-6 123171

Как оказалось в комментариях белка с ID D83536 было сказано, что это чать белка с ID AP009048, поэтому в вышележащей таблице мы его не указывали.

Как мы видим две последовательности имеют одинаковый вес, причем комментарии к ним также одинаковые (хотя и написаные разными словами), что довольно интеесно.
Самыми последними (то есть самые свежие записи) относятся к полным геномам, остальные записи довольно старые.
Наиболее информативно поле Description.

Сравнение описаний гена Escherichia coli в двух разных записях EMBL

На основании результатов первого упражнения мы выбрали две записи для дальнейшего изучения: X04027,U70214. Выбор довольно очевиден, так как две записи относились к полным геномам (и при выполнении работы с ними могли бы возникнуть затруднения), а две записи очень похожи. При помощи PUTTY (аналогично первому заданию) получите эти записи EMBL, убедились, что в этих документах действительно содержатся описания последовательности, кодирующей мой белок (что интересно, обнаружилось что мой белок кроме названия dnaQ имеет и другое название mutD). Изучиd документы заполнили таблицу:

Последовательности, кодирующие белок dnaQ (mutD) в двух записях банка EMBL

  I II
ID записи  X04027  U70214
Начало гена в записи  581  67133
Конец гена в записи  1312  67873
Направление гена  прямое  прямое
Примечания* короткая заись, есть лишь одна ссылка на статью,указано, что используется 11-ая таблица генетического кода.   большая запись, есть две ссылки на статьи,указано, что используется 11-ая таблица генетического кода и стартовый кодон метионин(№1).

Извлекли из полученных записей нуклеотидные последовательности, кодирующие белок dnaQ, в виде отдельных файлов. Сравнили последовательности.
Как оказалось последовательности имеют некоторые отличия, точнее даже сказать одно отличие, в начале первой последовательности просто нехватает 9 нуклеотидов, во всех остальных позициях последовательности абсолютно идентичны. Я проверил, какие нуклеотиды в более короткой последовательности стояли бы в месте пропуска, и что интересно, там были именно те нуклеотиды, что и в другой последовательности, то есть последовательности полностью были бы идентичны, если бы рассматривались одинаковые по размеру участки.

Знакомство с записью гена из эукариотического генома

Изучили документ EMBL с идентификационным номером BA000025.

Для изучения был взят ген HLA-H. При изучении выяснилось, что в записи для этого гена не было точно указано расположение экзонов (как это было сделано для многих других генов, включая выше и ниже лежащие гены), но далее было замечено, что этот ген и ген последующий в записи (HLA-54) совпажают по расположению на цепи,но ген HLA-54, расположен на прямой цепи в лтиличие от HLA-H, возможно (это только мое мнение), что эти гены отвечают за одну и ту же последовательность, но олин на прямой цепи, а другой на комплементарной (это подтверждает и то, что экзоны этих генов полностью совпадают). Возникает также еще один вопрос, делов том, что в записи сказано что ген HLA-H расположен на коплементарной цепи с номера 2049415 по номер 2056004, но на этот же промежуток залезают и другие геныы, такие как P5-07 и P5-09 (гомолги P5-1), а также HCGIV-07. Правда эти участки не входят в кодирующие экзоны исследуемого белка, но все же такое несоответствие настораживает.

Cтруктуру транслируемых участков на комплементарной цепи:

<-[2051621..2051920]--...--[2054741..2054813]--

В файле HLA.xls содержится информация о количестве и длине интронов и экзонов.


©Метелев Михаил