ФББ 2013-2014

Работа в Uniprot

Uniprot - это база данных белковых последовательностей. Запись белка в этой базе данных содержит не только аминокислотную последовательность, но и много других полезных данных: из какого организма белок, дата расшифровки, подтверждения существования белка, ссылки на другие базы данных и много другой информации. Эту базу данных делят на 2 сегмента. Первый - это SwissProt, туда включены последовательности белков, для которых аннотация была сделана экспертом. Второй - TrEMBL - содержит последовательности, полученные с помощью компьютерной трансляции. Аннотация TrEMBL также создаётся автоматически, и последовательностей в TrEMBL во много раз больше, чем в SwissProt.

С помощью ID mapping я смогла узнать идентификатор моего белка в базе данных Uniprot, зная его PDB код (3GL3). ID mapping - удобный инструмент, который позволяет узнать идентификатор Uniprot, зная идентификатор этого белка в какой-то одной базе данных. Идентификатор белка в базе Uniprot (ID) - Q8KDH8_CHLTE.

Следующее задание - поиск ортологов моего белка. Ортологи - это белки, гены которых произошли от общего предшественника и разошлись в процессе видообразования. Их можно найти с помощью Advanced search в Uniprot. Искать необходимо по двум параметрам: название белка и таксон (ранг: род). В моём случае запрос выглядел так:

name:"Thiol:disulfide interchange protein dsbE" AND taxonomy:Chlorobium

Однако по такому запросу ортологов найдено не было, поскольку в геноме Chlorobium был найден только один белок семейства dsbE. Тогда я решила поискать белки этого семейства у других таксонов, поиск был успешен. По запросу name:"dsbE" AND taxonomy:"bacteria" было найдено 3555 белков (из них аннотированы 18), но их нельзя считать ортологами моего белка, потому что таксоны слишком неродственные.

Далее я решила действовать так: убрать название семейства из поиска и задать такой запрос:

name:"Thiol:disulfide interchange protein" AND taxonomy:Chlorobium

Было найдено 15 результатов (из них аннотировано 0). Среди этих 15 результатов большинство - это белки семейства DsbD. Они функционально связаны с dsbE белками. Путь передачи электронов таков (источник): NADPH → TrxB → TrxA → DsbD → DsbC, DsbE, или DsbG → proteins. DsbD - это мембранный белок, принимающий электрон от первичных акцепторов - тиоредоксиновых белков, и передающий его на периплазматические белки (DsbC, DsbE, DsbG). Он также участвует в биогенезе цитохрома с, как и белки семейства DsbE. Поскольку семейство DbsD функционально близко к DbsE, я решила делать задание по нему. Итак, мой запрос в Uniprot теперь выглядит так:

name:"Thiol:disulfide interchange protein dsbd" AND taxonomy:Chlorobium

Рис.1. Результаты поиска ортологов белка dbsD из бактерии Chlorobium tepidum в базе данных Uniprot.

Всего было найдено 8 ортологов. Я взяла 2 из них - из Chlorobium limicola (ID: B3ECV3_CHLL2) и Chlorobium ferrooxidans (ID: Q0YTJ9_9CHLB) более подробное сравнение - в таблице 1. Также в этой таблице есть информация о белке из Chlorobium tepidum (ID: Q8KDH5_CHLTE), эта бактерия была исходной для поиска. Для каждого белка я скачала файл с полной информацией:

Таблица 1. Сравнение ортологов белка дисульфидного обмена dsbD из Chlorobium tepidum TLS.

Метка поля Содержание
Белок дисульфидного обмена семейства dsbD из бактерии Chlorobium tepidum Белок дисульфидного обмена семейства dsbD из бактерии Chlorobium limicola Белок дисульфидного обмена семейства dsbD из бактерии Chlorobium ferrooxidans
Идентификатор записи ID Q8KDH5_CHLTE B3ECV3_CHLL2 Q0YTJ9_9CHLB
Код доступа первый ("Accession number") AC Q8KDH5 B3ECV3 Q0YTJ9
Код(ы) доступа остальные AC нет нет нет
Дата создания документа DT 01-OCT-2002 22-JUL-2008 05-SEP-2006
Дата последнего исправления аннотации DT 19-FEB-2014 19-FEB-2014 19-FEB-2014
Название (краткое описание) белка DE Thiol:disulfide interchange protein DsbD (синоним - Protein-disulfide reductase). По классификации ферментов EC - 1.8.1.8 Thiol:disulfide interchange protein DsbD (синоним - Protein-disulfide reductase). По классификации ферментов EC - 1.8.1.8 Thiol:disulfide interchange protein DsbD (синоним - Protein-disulfide reductase). По классификации ферментов EC - 1.8.1.8
Название организма OS Chlorobium tepidum (strain ATCC 49652 / DSM 12025 / TLS) Chlorobium limicola (strain DSM 245 / NBRC 103803) Chlorobium ferrooxidans DSM 13031
Таксономия OC Bacteria; Chlorobi; Chlorobia; Chlorobiales; Chlorobiaceae; (устаревшее название - Chlorobaculum) Bacteria; Chlorobi; Chlorobia; Chlorobiales; Chlorobiaceae; Chlorobium/Pelodictyon group; Chlorobium. Bacteria; Chlorobi; Chlorobia; Chlorobiales; Chlorobiaceae; Chlorobium/Pelodictyon group; Chlorobium.
Название локуса гена GN dsbD, CT1075 dsbD; Clim_1312 dsbD; ORFNames=CferDRAFT_1562
Номер публикции RX PubMed=12093901; DOI=10.1073/pnas.132181499 нет нет
Автор(-ы) публикации RA Eisen J.A., Nelson K.E., Paulsen I.T., Heidelberg J.F., Wu M., Dodson R.J., DeBoy R.T., Gwinn M.L., Nelson W.C., Haft D.H., Hickey E.K., Peterson J.D., Durkin A.S., Kolonay J.F., Yang F., Holt I.E., Umayam L.A., Mason T.M., Brenner M., Shea T.P., Parksey D.S., Nierman W.C., Feldblyum T.V., Hansen C.L., Craven M.B., Radune D., Vamathevan J.J., Khouri H.M., White O., Gruber T.M., Ketchum K.A., Venter J.C., Tettelin H., Bryant D.A., Fraser C.M.; Lucas S., Copeland A., Lapidus A., Glavina del Rio T., Dalin E., Tice H., Bruce D., Goodwin L., Pitluck S., Schmutz J., Larimer F., Land M., Hauser L., Kyrpides N., Ovchinnikova G., Zhao F., Li T., Liu Z., Overmann J., Bryant D.A., Richardson P. Larimer F., Land M., Hauser L.
Название публикации RT "The complete genome sequence of Chlorobium tepidum TLS, a photosynthetic, anaerobic, green-sulfur bacterium." "Complete sequence of Chlorobium limicola DSM 245." "Annotation of the draft genome assembly of Chlorobium ferroxidans DSM 13031."
Журнал RL Proc. Natl. Acad. Sci. U.S.A. 99:9509-9514(2002) (полное название - Proceedings of the National Academy of Sciences(PNAS) Submitted (MAY-2008) to the EMBL/GenBank/DDBJ databases. Submitted (JUL-2006) to the EMBL/GenBank/DDBJ databases.
Чем обосновано существование белка PE Inferred from homology Inferred from homology Inferred from homology
Ссылка (-и) на базу 3D структур PDB DR нет нет нет
Реакция, катализируемая ферментом CC: CATALYTIC ACTIVITY Protein dithiol + NAD(P)(+) = protein disulfide + NAD(P)H Protein dithiol + NAD(P)(+) = protein disulfide + NAD(P)H Protein dithiol + NAD(P)(+) = protein disulfide + NAD(P)H
Расположение фермента внутри клетки CC: SUBCELLULAR LOCATION Cell inner membrane; Multi-pass membrane protein (Интегральный белок, пронизывающий мембрану несколько раз) Cell inner membrane; Multi-pass membrane protein Cell inner membrane; Multi-pass membrane protein

Как видно из таблицы, данное семейство ферментов изучен плохо, не расшифрованы 3D структуры. Поискав по сайту PDB, я поняла, что в основном расшифрованы отдельные домены белков DbsD. Это печально.

Далее я ответила на 2 вопроса из предложенного списка.

Мутация по какому аминокислотному остатку нарушит связывание белка с каким-либо субстратом? Все 3 белка являются трансмембранными, поэтому за субстрат я буду считать мембрану. Гидрофобная часть, закрепляющая их в мембране, у всех 3х белков состоит из 8-ми альфа-спиралей (я узнала это, посмотрев на поле FT - feature table), поэтому можно воздействовать на аминокислоты, важные для сворачивания альфа-спирали (например, пролин). Чтобы максимально эффективно помешать белку связаться с мембраной, я бы предложила менять что-нибудь в альфа-спирали посередине, заменив в ней пролин на сильно полярную и при этом большую аминокислоту - например, аргинин или глутаминовую кислоту.

Предложите мутацию, которая, на Ваш взгляд, сильно повлияет на активность белка. Актиность белка обеспечивается окислительно-восстановительные и тиоредоксин-домены в данных белках, поэтому менять мы будем их, а конкретно - остатки, участвующие в реакции образования дисульфидного мостика (это ключевая стадия реакции). Самое простое - заменить два остатка цистеина на что угодно, не содержащее серу. Но цистеина много, а менять мы будем конкретно в тиоредоксин-домене. Наглядное изображение остатков во всех трёх белках я обвела красным на рисунке 1.2.

Рис.1.2. Blast трёх ортологов, в красном квадрате - остатки цистеина в тиоредоксиновом домене, которые очень важны для функционирования белков. Кстати видно, что этот участок очень консервативен.

Работа в DOOR2 (база данных оперонов)

Оперон - это несколько генов в геноме прокариот, экспрессирующихся вместе и кодирующих совместно работающие белки.

DOOR2 - это база данных предсказанных оперонов прокариотических организмов. Некоторые опероны подтверждены экспериментально.

Первый оперон, с которым я буду работать - АТФазный оперон Chlorobium tepidum TLS. Этот оперон уже обсуждался в первом семестре, выводы можно посмотреть здесь. Как было понятно из предыдущей работы, гены, которые кодируют разные субъединицы АТФ, не объединены в один большой оперон, а разделены на несколько оперонов меньшего размена. Поэтому поиск в базе данных DOOR2 я буду проводить не по идентификатору гена, а по названию белка (atp synthase) и названию организма (Chlorobium tepidum TLS).

Изначально мой запрос выглядел так: "Chlorobium tepidum TLS atp synthase". Однако несколько результатов, выданных по данному запросу, не соответствовали задаче. Тогда я немного изменила запрос. Окончательный вариант: "Chlorobium tepidum TLS atp synthase subunit". По такому запросу было найдено 6 результатов. Итоги поиска можно увидеть на рисунке 2.

Рис.2. Результаты поиска АТФазных оперонов в геноме Chlorobium tepidum TLS в базе данных DOOR2.

Я сравнила результаты моей работы с геномным браузером NCBI (то есть фактически поиск оперонов вручную) с поиском в DOOR2. Опероны с ID 26843 и 27060 (на рисунке это строчки 2 и 3) совпали с теми оперонами, которые нашла я в первом семестре. А вот остальные результаты не совпадают. Найденные в DOOR2 опероны с ID 26636, 1424881 и 1424885 я объединила в один оперон, поскольку гены расположены рядом (что видно по их номерам). Возможно, что автоматически они не попали в один оперон из-за того, что расстояние между ними слишком большое. Также есть оперон с ID 27093, который я не нашла вручную при работе с геномным браузером.

На рисунке 3 показан оперон с ID 27093, как пример того, чего я не нашла, а на рисунке 4 - подтвердившийся оперон с ID 26843.

Рис.3. Оперон 27093 (выделен жёлтым) и его окружение, найденный DOOR2 и не найденный мной.

Рис.4. Оперон 26843 (выделен жёлтым) и его окружение, найденный DOOR2 и мной тоже.

Точность предсказаний оперонов алгоритмом, который работает в DOOR2 - более 90%, это довольно высокая цифра. Однако нельзя на 100% быть уверенным в результате.

Теперь осуществим поиск оперона, в который входит мой белок. Поскольку "моих белков" у меня уже 3, проверим каждый из них. Сделав запрос "Clorobium tepidum TLS thiol:disulfide interchange", я поняла, что гены не собраны в оперон. В том семестре я предположила, что некоторые из этих генов находятся в опероне, но скорее всего это было неправильно (работа того семестра).

Далее я попыталась узнать, входит ли в оперон белок, с которым я работала в большинстве практикумов по Jmol (pdb - 3GBY, gene locus - CT1051). Мой запрос в DOOR2 выглядел так: "Clorobium tepidum TLS CT1051". Был найден оперон, состоящий из 5-ти генов, его расположение показано на рисунке 5.

Рис.5. Оперон 26847 (выделен жёлтым) и его окружение, найденный DOOR2.

В одном из практикумов по Jmol я пыталась понять функцию моего белка, в том числе с помощью поиска оперона. Тогда я пользовалась другими средствами поиска, и найденный мной тогда оперон совпал с тем, что нашла база данных DOOR2.