Банк UniProt

UniProt (от Universal Protein) - свободно доступная центральная база данных о белках, включающая ресурсы Swiss-Prot, TrEMBL и PIR-PSD; содержит информацию о белковых последовательностях и их биологических функциях.

1. Извлекаю из банка UniProt документ, содержащий информацию о моем белке.

Прорамма entret на сервере kodomo умеет извлекать записи из локальных банков данных. Чтобы получить документ для моего белка, задаю команду:

entret sw:hutp_bacsu

Далее необходимо ввести имя файла:

Full text of a sequence database entry output file [hutp_bacsu.entret]: hutp_bacsu

В итоге в моей дирректории появился файл hutp_bacsu.entret.

2. Открываю документ программой less и заполняю таблицу:

Необходимая информация Метка поля Содержание
Код(ы) доступа (Accession number) AC P10943
Идентификатор записи в БД (Identification) ID HUTP_BACSU
Название (краткое описание) белка (Description) DE Полное название: Hut operon positive regulatory protein
Дата создания документа (Date) DT 01-JUL-1989
Дата последнего исправления аннотации (Date) DT 25-JAN-2012 (92-ая версия)
Число публикаций, использованных при создании документа (Reference number) RN 6
Журнал и год самой поздней публикации (Reference location) RL J. Struct. Biol., 2002 год
Ключевые слова (Keywords) KW 3D-structure; Activator; Complete proteome; Direct protein sequencing; Histidine metabolism; Reference proteome; RNA-binding; Transcription; Transcription regulation
Что содержит поле комментариев? (Comments or notes) CC

Общее описание функций (FUNCTION): Antiterminator that binds to cis-acting regulatory sequences on the mRNA in the presence of histidine, thereby suppressing transcription termination and activating the hut operon for histidine utilization.

Четвертичную структуру (SUBUNIT, также может включать информацию о различных взаимодействиях с другии белками или комплексами, за исключением взаимодействий вида рецептор-лиганд): Homohexamer.

Описание сходства (последовательности аминокислот или структуры) белка с другими белками (SIMILARITY): Belongs to the hutP family.

Отличия от последовательности, показанной в UniProtKB из-за противоречий, не описанных в FT CONFLICT (SEQUENCE CAUTION): Sequence=AAA22537.1; Type=Erroneous initiation; Sequence=BAA06645.1; Type=Erroneous initiation; Sequence=CAB15970.1; Type=Erroneous initiation.

Copyrighted by the UniProt Consortium, see http://www.uniprot.org/terms Distributed under the Creative Commons Attribution-NoDerivs License

Идентификаторы записей PDB (Database cross-references) DR 1VEA, 1WMQ, 1WPS, 1WPT, 1WPU, 1WPV, 1WRN, 1WRO, 1WRQ, 2ZH0, 3BOY

3. Отвечаю на вопросы о моем белке.

Вопросы 1, 5, 12. В какой части бактериальной клетки локализован Ваш белок? На какой участок вашего белка Вы бы стали воздействовать,чтобы помешать его правильной локализации в клетке? Какие ионы связываются с белком? Опишите функцию и состав комплекса, в который входит данный белок.

HutP регулирует экспрессию гистидиновых структурных генов сенной палочки с помощью антитерминационного механизма при участии ионов магния и L-гистидина. Ген HutP на мРНК расположен справа от промотора, далее идут остальные структурные гены (hutH, hutU, hutI, hutG, hutM, кодирующие гистидазу, урокиназу, имидазолон-пропионат-амино гидролазу, формининоглутамат гидролазу и гистидин пермеазу соответственно). Частично перекрывающиеся нуклеотидные последовательности, расположенные между геном HutP и структурными генами, определяют формирование антитерминатора/терминатора (stem-loop) в зависимости от наличия L-гистидина и ионов магния. Транскрипция структурных генов регулируется белком HutP. Соответственно белок HutP будет локализован в цитоплазме бактерии, в области гистидинового оперона.

Белок HutP инициирует дестабилизацию 5'-конца мРНК путем связывания с первой XAG-богатой (X означает любое основание) областью (site I), а затем со второй XAG-богатой областью (site II), расположенной справа от стабильного GC-богатого участка. Таким образом, HutP разрывает его, предотвращая преждевременное прекращение транскрипции в РНК предшествующих регионов, кодирующих ферменты распада гистидина.

Функционирование белка будет нарушаться при замене оснований в данных XAG-богатых областях (site I, site II), обеспечивающих связывание с мРНК, и в GC регионе между ними.

Белок формирует гомогексамер (данный белок состоит из трех полипетидных цепей, но функционирует как бинарный комплекс - гексамер), изменяя конформацию, связывает магний и L-гистидин. Четвертичная структура (HutP-L-гистидин-Mg2+-РНК) показывает как HutP узнает консервативные последовательности в hut мРНК и раскрывает неожиданную ведущую роль ионов магния как посредника в L-гистидин-зависимой перестройке в белковой молекуле. Ион магния
координируется с L-гистидином для облегчения структурных изменений при последующем взаимодействии с РНК в области терминатора. Механизм работы HutP основан на узнавании троек триплетов UAG, разделенных четырьмя нуклеотидами в зоне терминации (а именно, последовательности UAGNNNNUAGNNNNUAG, где N - любое основание). Мутации в этой области нарушили бы связывание белка с мРНК. Ион магния способствует оборачиванию РНК вокруг белка, тем самым реорганизуя и дестабилизируя структуру терминатора.



Step A: формирование гексамера, обладающего гидрофобными характеристиками.


Step B: присоединение трех молекул L-гистидина.

Step C: присоединение трех ионов магния; полное изменение конформации гексамера в присутствии L-гистидина и ионов магния.

Step D: распознавание специфической РНК-последовательности в зоне терминации и формирование антитерминационного комплекса; конформационные изменения молекулы РНК.

Вопрос 3, 7. Какие аминокислотные остатки Вы бы стали модифицировать, чтобы изменить характер связывания металла с белком? Какие участки белка (напишите номера аминокислотных остатков) участвуют в связывании лиганда? Какого?

В связывании Mg2+ учавствуют:

73, 77 остатки гистидина в цепи A; 73, 77, 138 остатки гистидина - в цепи B; 73, 77, 138 остатки гистидина - в цепи С.

Соответственно, данные остатки я бы модифицировала, чтобы изменить характер связывания металла с белком.

Пример:

Также в качестве лигандов выступают 3 молекулы L-гистидина. Описание контактов молекулы белка и данного лиганда уже было описано в работе Amino Acid Contacts, где рассматривались и контакты с магнием.

Примеры:

Вопрос 9. Какой функции этого белка посвящена одна из статей, упомянутых в записи?

Статья, упомнятая пятой, например, посвящена связыванию HutP с антитерминаторной РНК, определению сайтов связывания и роли N-конца белка в этом процессе.

Вопрос 6, 10, 17. Какие мутации Вашего бека исследованы? Какие аминокислотные остатки (русское название, трехбуквенный код, номер в цепи) мутировали и к чему это приводило? Мутация по какому аминокислотному остатку нарушит связывание белка с каким-либо субстратом? Предложите мутацию, которая, на Ваш взгляд, сильно повлияет на активность белка. Ответ требует краткого обоснования.

Сильное нарушение вызывают мутации по 2, 3, 8, 9, 18, 35 а.о. (Great decrease in binding affinity for mRNA), обычное - по 4, 7, 10, 15, 17, 26 а.о. (Decrease in binding affinity for mRNA), слабое - по 7-му а.о. (Slight decrease in binding affinity for mRNA).

2 T->A: Great decrease in binding affinity for mRNA (Thr->Ala, Треонин->Аланин).

3 L->A: Great decrease in binding affinity for mRNA (Leu->Ala, Лейцин->Аланин).

4 H->A: Decrease in binding affinity for mRNA (His->Ala, Гистидин->Аланин).

7 R->A: Decrease in binding affinity for mRNA (Arg->Ala, Аргинин->Аланин).

7 R->K: Slight decrease in binding affinity for mRNA (Arg->Lys, Аргинин->Лизин).

8 R->P: Great decrease in binding affinity for mRNA (Arg->Pro, Аргинин->Пролин).

9 I->A: Great decrease in binding affinity for mRNA (Ile->Ala, Изолейцин->Аланин).

10 G->A: Decrease in binding affinity for mRNA (Gly->Ala, Глицин->Аланин).

15 L->A: Decrease in binding affinity for mRNA (Leu->Ala, Лейцин->Аланин).

17 L->A: Decrease in binding affinity for mRNA (Leu->Ala, Лейцин->Аланин).

18 L->A: Great decrease in binding affinity for mRNA ((Leu->Ala, Лейцин->Аланин).

26 Q->A: Decrease in binding affinity for mRNA (Gln->Ala, Глутамин->Аланин).

35 W->A: Great decrease in binding affinity for mRNA (Trp->Ala, Триптофан->Аланин).

Видно, что в основном к нарушениям приводят мутации с заменой на аланиновый аминокислотный остаток.

Получается, что мутации по 2, 3, 8, 9, 18, 35 а.о. сильно повлияют на активность белка и с большей вероятностью могут нарушить его связывание с мРНК.

Также была исследована мутация, приводящая к улучшению способности связывать мРНК в присутствии гистидина:

51 V->I: Increased ability to bind to hut mRNA in the presence of histidine (Val->Ile, Валин->Изолейцин).

Также были исследованы другие случаи замены аминокислотных остатков, не несущие никаких эффектов:

5 K->A: No effect (Lys->Ala, Лизин->Аланин).

5 K->R: No effect (Lys>Ala, Лизин->Аланин).

6 E->A: No effect (Glu->Ala, Глутамат->Аланин).

8 R->A,K: No effect (Arg->Ala, Lys, Аргинин->Аланин, Лизин).

11 R->A,K: No effect (Arg->Ala, Lys, Аргинин->Аланин, Лизин).

11 R->A: No effect (Arg->Ala, Аргинин->Аланин).

13 S->A: No effect (Ser->Ala, Серин->Аланин).

14 V->A: No effect (Val->Ala, Валин->Аланин).

16 L->A: No effect (Leu->Ala, Лейцин->Аланин).

19 N->A: No effect (Asn->Ala, Аспарагин->Аланин).

20 E->A: No effect (Glu->Ala, Глутамат->Аланин).

22 E->A: No effect (Glu->Ala, Глутамат->Аланин).

23 E->A: No effect (Glu->Ala, Глутамат->Аланин).

24 S->A: No effect (Ser->Ala, Серин->Аланин).

25 T->A: No effect (Thr->Ala, Треонин->Аланин).

32 R->A: No effect ((Arg->Ala, Аргинин->Аланин).

Вопрос 13. Получите последовательность 2-й альфа-спирали (в цепи А), используя команду seqret пакета EMBOSS.

Использую команду seqret, считывающую указаные последовательности и выдающую их:

seqret sw:hutp_bacsu helix2.seq -sbeg 25 -send 33

helix2.seq - имя файла, в который записывается необходимая информация, а именно:

>HUTP_BACSU P10943 Hut operon positive regulatory protein

TQVEELERD - искомая последовательность.

Вопрос 14. Получите последовательность 3-го бета-тяжа (в цепи А), используя команду seqret пакета EMBOSS.

Использую:

seqret sw:hutp_bacsu sheet3.seq -sbeg 120 -send 130

Получаю:

>HUTP_BACSU P10943 Hut operon positive regulatory protein

WIAVSLYGTIG - искомая последовательность.

Вопрос 15. Последовательности большинства белков начинаются с метионина. Почему? После биосинтеза в процессе созревания белка метионин может быть удален. Указан ли метионин в начальной позиции заданного белка? А удаляется ли он потом?

Метионин - аминокислота, кодируемая стартовым кодоном AUG, с которого обычно начинается синтез белков. В начальной позиции моего белка метионин удаляется (INIT_MET 1 1 Removed).

4. Определяю, сколько белков в UniProt имеют тот же код белка или примерно то же описание (DE), что и мой белок и заполняю таблицу.

Для поиска в Swissprot использую команду infoseq, заменив код организма звездочкой - как в заданиях предыдущего практикума. Результат - только описания белков, выдаваемые на stdout для контроля. Для подсчета перенаправляю выходной поток команде wc.

infoseq sw:hutp_* -only -description -noheading | wc -l

Получаю ответ: 22 (строки с описаниями без заголовков передаются команде wc, подсчитывающей их).

Захожу на сайт UniProt: http://www.uniprot.org/. В окошке Search in выбираю UniProtKB, а в окошке Query ввожу запрос — одно или несколько слов из описания белка, нажимаю "Search". В верхней части страницы с результатами поиска найдите информацию о числе находок.

Команда/Запрос Число записей в SwissProt Число записей в TrEMBL
infoseq sw:hutp_* -only -description -noheading | wc -l 22 -
"Hut operon positive regulatory protein" 22 81
"Operon positive regulatory protein" 24 110
"Operon regulatory protein" 314 2485
name:"Operon regulatory protein" 314 2482
"Operon protein" 210 7339
name:"Operon protein" 208 7317
HutP 25 221

5. Сравниваю запись своего белка с записью одного белка с похожим описанием.

Выбираю белок HUTP_BACAN, принадлежащий Bacillus anthracis и извлекаю из банка UniProt документ, содержащий информацию о нем:

entret sw:hutp_bacan

Далее ввожу имя файла:

Full text of a sequence database entry output file [hutp_bacsu.entret]: hutp_bacan

В итоге в моей дирректории появился файл hutp_bacan.entret.

Теперь я могу сравнить информацию о своем белке HutP_Bacsu с информацией об HutP_Bacac.

Метка поля Белок 1, HutP_Bacsu Белок 2, HutP_Bacac
Первый код доступа AC P10943 Q81Y44; Q6HVD9; Q6KPK8
Идентификатор последовательности в БД ID HUTP_BACSU HUTP_BACAN
Название (краткое описание) белка DE Полное название: Hut operon positive regulatory protein Полное название: Hut operon positive regulatory protein
Дата создания документа DT 01-JUL-1989 10-MAY-2004
Дата последнего исправления аннотации DT 25-JAN-2012 (92-ая версия) 16-NOV-2011 (51-ая версия)
Название организма OS Bacillus subtilis Bacillus anthracis
Классификация организма (список таксонов) OC Bacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus Bacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus; Bacillus cereus group
Длина последовательности SQ 148 AA 146 AA
Молекулярная масса белка SQ 16196 MW 15822 MW
Число публикаций, использованных при создании документа RN 6 3
Журнал и год самой поздней публикации RL J. Struct. Biol., 2002 год Submitted to the EMBL/GenBank/DDBJ databases, 2004 год
Описание вторичной структуры FT 6 α-спиралей (7 в цепи C), 6 β-тяжей, 11 β-поворотов:

HELIX 5 7

HELIX 9 17

HELIX 26 32

STRAND 36 45

HELIX 47 60

STRAND 66 69

HELIX 70 87

HELIX 94 96

STRAND 99 109

STRAND 112 114

HELIX 115 117

STRAND 120 133

STRAND 136 147

Отсутствует
Ключевые слова KW 3D-structure; Activator; Complete proteome; Direct protein sequencing; Histidine metabolism; Reference proteome; RNA-binding; Transcription; Transcription regulation Activator; Complete proteome; Histidine metabolism; Reference proteome; RNA-binding; Transcription; Transcription regulation
Темы, освещённые в комментариях CC FUNCTION, SUBUNIT, SIMILARITY, SEQUENCE CAUTION FUNCTION, SUBUNIT, SIMILARITY
Особенности последовательности FT INIT_MET 1 1 Removed Отсутствуют
Идентификаторы записей PDB DR 1VEA, 1WMQ, 1WPS, 1WPT, 1WPU, 1WPV, 1WRN, 1WRO, 1WRQ, 2ZH0, 3BOY Не указаны

Комментарии. HutP_Bacsu является более исследованным белком, чем HutP_Bacac. Об этом свидетельствуют:

поле DT - аннотация первого белка исправлялась 92 раза, второго - 51 раз, т.е., практически, в два раза реже, к тому же документ о первом белке был созднан в 1989, гораздо раньше, чем второго - в 2004;

поле RN - при создании документа о первом белке использовались 6 публикаций, второго - снова в два раза меньше, т.е. 3, причем из них только первая была опубликована в научном журнале;

поле DR - для первого белка существует 11 идентификаторов записей PDB, для второго они вовсе отсутствуют;

поле FT - для второго белка отсутствуют описание вторичной структуры и особенностей последовательности.


© Eugenia Prokhorova 2011