На главную третьего семестра | На главную |
В документе SwissProt, описывающем белок BioA_ECOLI найдены все ссылки на банк EMBL.
C помощью SRS получена информация, необходимая для заполнения таблицы ниже.
Идентификатор записи EMBL | Тип молекулы | Класс данных | Раздел EMBL | Дата создания документа |
Описание | Длина последовательности |
U00096 | genomic DNA | STD | PRO | 23.02.2006 | Полный геном Escherichia coli K12 MG1655 | 4639675 |
A11524 | unassigned DNA | PAT | PRO | 28.01.1994 | Ген BioA gene из E.coli с праймерами | 1333 |
J04423 | genomic DNA | STD | PRO | 20.02.1989 | E.coli 7,8-диамино-пеларгониковая кислота (bioA), синтетаза биотина (bioB), синтетаза 7-кето-8-амино-пеларгониковаякислоты (bioF), белок bioC, синтетаза детиобиотина (bioD) | 5793 |
AP009048 | genomic DNA | STD | PRO | 22.01.2006 | Полный геном Escherichia coli W3110. | 4646332 |
Одним из самых больших различий записей является то, что запись A11524 содержит не распознанный ДНК E.coli с праймерами. Отсюда и различие в классе данных этой записи. Остальные записи имеют различие только в дате создания. Так же можно заметить, что описаны две записи, соджержащие полный геном E.coli, они различаются по длине и дате создания. Различия в длине могут объясняться тем, что это геномы разных штаммов.
Запрос на получение данных о записях БД EMBL;
"((([embl-ID:J04423*]|[embl-ID:A11524*]|[embl-ID:U00096*])|[embl-ID:AP009048*])"
На основании результатов упражнения 1 выбраны 2 записи для дальнейшего изучения. Взята запись J04423 с частью генома E.coli, содержащей ген bioA, и запись U00096 с полным геномом. Последняя запись была выбранана основе соображений того, что запись A11524, которую можно было взять для дальнейшего изучения, содержит нерасшифрованную ДНК. По записям EMBL J04423 и U00096 заполнена таблица ниже
I | II | |
ID записи | J04423 | U00096 |
Начало гена в записи | 633 | 807191 |
Конец гена в записи | 1925 | 808480 |
Направление гена | обратное | обратное |
Примечания | В записи указаны гены в белках с идентификаторами UniProtKB/Swiss-Prot P12994, P12995, P12996, P12998, P12999, P13000 Draft entry and computer-readable sequence [1] kindly submitted by A.Otsuka, 09-NOV-1988 20-FEB-1989 (Rel. 18, Created) 04-MAR-2000 (Rel. 63, Last updated, Version 5) | Полный геном Escherichia coli K12 MG1655 |
Из полученных записей извлечены инуклеотидные последовательности, кодирующие белок BioA_ECOLI, в виде отдельных файлов.
Параметры выравнивания, полученного программой needle:
Length: 1293 Identity: 1289/1293 (99.7%) Similarity: 1289/1293 (99.7%) Gaps: 3/1293 ( 0.2%) Score: 6420.5Полученное выравнивание в области различий:
U00096 251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg a-- cgc 298 || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| | .|| J04423 251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg agc ggc 300 U00096 299 cgc aac -cg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt 347 ||| ||| || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| || J04423 301 cgc aac gcg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt 350Хотя, на самом деле, скорее всего, более правильным было бы следующее выравнивание, которое по алгоритму программы needle оказалось хуже, чем выданное:
U00096 251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg a-c -gc 298 || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| | | || J04423 251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg agc ggc 300 U00096 299 cgc aac -cg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt 347 ||| ||| || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| || J04423 301 cgc aac gcg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt 350Несоответствия двух последовательностей (и как результат гэпы в выравнивании) могли возникнуть из-за мутации E.coli (неизвестно какой штамм секвенировался для получения записи J04423), так как запись EMBL J04423 создана 20.02.1989, это самая старая запись из найденных, а запись U00096 создана 23.02.2006, это самая свежая запись. Возможно, произошли 3 точечные делеции в штаммах, которые секвенировались позже.
Для сравнения было получено выравнивание гена из записей EMBL A11524, содержит нерасшифрованную ДНК, и J04423. Участок этого выранивания, соответствующий участку для первого выравнивания, в точности повторяет картину превого выравнивания.
A11524 251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg a-- cgc 298 || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| | .|| J04423 251 cc cat gcg cca gcc att gag ctg tgc cgc aaa ctg gtg gcg atg agc ggc 300 A11524 299 cgc aac -cg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt 347 ||| ||| || ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| ||| || J04423 301 cgc aac gcg ctg gag tgc gtt ttt ctc gcg gac tcc ggt tcc gta gcg gt 350Что только подтверждает гипотезу о мутации E.coli.
Для изучения предложен документ EMBL с идентификационным номером BA000025.
Ген находится на комплементарной цепи:
<-[287948..288061]--...--[285939..285964]----Между 6м и 5м экзонами гена APOM на прямой цепи находится участок
/note="TIGR-A007I39;The location is between each flanking site of PCR primers."с координатами 285833..285947. Этот участок находится между двумя сайтам праймеров PCR.
Границы экзонов на прямой и комплиментарной цепях соввпадают за исключением 1го и 6го экзново.
1й экзон на прямой цепи
exon 287948..288090 /number=1 /gene="APOM"Тогда как на комплиментарной цепи 1й экзон имеет координаты (287948..288061).
6й экзон на прямой цепи
exon 285819..285964 /number=6 /gene="APOM"Тогда как на комплиментарной цепи 6й экзон имеет координаты (285939..285964).
Самый короткий экзон номер 6, его длина 25 нуклеотидов.
Самый короткий интрон - интрон между 3м и 4м экзонами, его длина 253 нуклеотида.
Все вычисления находятся в файле ex2.xls