В документе SwissProt, описывающем изучаемый белок P00805 , найдены все ссылки на банк EMBL.
Для этого на kodomo-count получен файл с записью SwissProt (команда entret sw:p00805 -auto).
В поле DR содержится информация о соответствующих записях EMBL (AC записи: M34277, M34234, U28377, U00096).
C помощью SRS (см. подсказки) получены данные:
Идентификатор записи EMBL | Тип молекулы |
Класс данных
|
Раздел EMBL
|
Дата создания документа |
Описание
|
Длина последовательности (в нуклеотидах)
|
U00096 | геномная ДНК | стандарт | прокариоты | 23.02.2006 | Escherichia coli K12 MG1655, полный геном | 4639675 |
M34234 | геномная ДНК | стандарт | прокариоты | 04.07.1990 | ген L-asparaginase II (ansB) из E.coli, полная кодирующая последовательность | 1643 |
M34277 | геномная ДНК | стандарт | прокариоты | 28.06.1990 | ген L-asparaginase II (ansB) из E.coli, полная кодирующая последовательность | 1530 |
U28377 | геномная ДНК | стандарт | прокариоты | 05.07.1995 | геном Escherichia coli K-12; приблизительно 65-68 минут. | 141744 |
Сравнение: итак, в EMBL содержится 4 записи (соответственно, равно количеству AC). Во всех случаях, тип молекулы - геномная ДНК [genomic DNA]. Указан класс данных "стандарт" (вообще, классы данных представленны трехбуквенными обозначениями; в моем случае это STD - неклассифицированные записи, неотнесенные к специальным классам). Трехбуквенными обозначениями представленны и разделы EMBL (по таксонам; в моем случае это PRO - прокариоты). Наиболее поздний документ - по записи U00096. Наконец, при изучении поля Description (Описание) выяснилось, что одна из записей - полный геном Escherichia coli K12 MG1655 (соответственно, длина его наибольшая); 2ая и 3ья записи содержат полные кодирующие последовательности [complete cds - последовательности нуклеотидов, соответствующие аминокислотной последовательности белка (включая стоп-кодоны)] исследуемого белка L-аспарагиназы, его предшественника - L-asparaginase II (ansB) precursor. Интересно описание находки с идентификатором U28377. Возможно, здесь речь идет о локализации в хромосоме.
I | II | |
ID записи | M34277 | M34234 |
Начало гена в записи | 385 | 346 |
Конец гена в записи | 1431 | 1392 |
Направление гена | прямое | прямое |
Примечания* | Интересно, что совпадают ID и АС в записи EMBL; в FT указаны начало/конец
последовательностей сигнального пептида, мРНК, "зрелого" пептида (mat_peptide- начинается сразу после последовательности сигнального пептида, на 3 основания короче cds). |
В FT указаны начало/конец последовательностей sig_peptide - сигнального пептида; misc_feature - региона (с 1400 по 1425; предполагаемый сигнал окончания транскрипции), который представляет биологический интерес и который не попадает под описание каким-либо другим пунктом FT; RBS 335..339 - предполагаемого сайта связывания рибосомы |
Из полученных записей при помощи команды (с последующим ответом на вопросы)
seqret X.entret -sask[где Х - это m34277 либо m34234] извлечены нуклеотидные последовательности, кодирующие белок, в виде отдельных файлов (см. 1 и 2). Сравнение последовательностей сделано программой needle:
needle m34277.fasta m34234.fasta m34277-m34234.needle -autoПроцент идентичности равен 100.
Ген на прямой цепи
--[1269193..1269538]--...--[1288824..1289064]--->Особенность: начало 1ого экзона несовпадает с началом cds; конец последнего экзона не совпадает с концом cds; возможно, последовательности первого и последнего экзонов содержат регуляторные последовательности.