Наружу


Назад

Uniprot





Описание белка и взаимодействие с записью Uniprot

Белок, который я изучал - formate-tetrahydrofolate ligase. Он является одним из ферментов, участвующих в межмолекулярном переносе одноуглеродных врагментов, одном из важнейших элементов различных биосинтетических путей.

Параметр Значение
Uniprot ID FTHS_MOOTH
Uniprot AC P21164
Refseq ID -
PDB IDs 1EG7, 1FP7, 1FPM, 3QUS, 4JIM, 4JJK, 4JJZ, 4JKI
Длина 559 AA
Молекулярная масса 59993 MW
Рекомендуемое название Formate--tetrahydrofolate ligase

Поиск в Uniprot по CDS ID не дал результатов, поэтому пришлось использовать PDB код, соответствующий белку организма Moorella thermoacetica. Рекомендуемое имя белка, как и утверждалось ранее, formate--tetrahydrofolate ligase. При этом белок имеет 8 идентификаторов PDB: 1EG7; 1FP7; 1FPM; 3QUS; 4JIM; 4JJK; 4JJZ; 4JKI. Большое количество идентификаторов является закономерным для большинства записей в Uniprot. При этом у белка отсутствует идентификатор RefSeq, что свидетельствует об отсутствии его в базе данных RefSeq. Однако, NCBI выдаёт результаты по запросу ALX07041.1.

Но, не смотря на это, белок имеет 3D структуру и его существование подтверждено экспериментально. Судя по записи Uniprot, белок имеет массу 59993 MW и длину 559 AA. В базе данных он представлен одной цепью. Последней интересной вещью, которую можно вынести из записи, является доля аминокислот, входящих в состав Альфа спиралей. С помощью Excel было выявлено, что они составляют около 36% от всех аминокислот в белке.

Рассмотрение кластеров UniRef

Далее было произведено рассмотрение кластеров UniRef, включающих в себя данный белок. Очевидно, что бактериальные белки не очень консервативны, поэтому кластер UniRef100_P21164 включал в себя лишь один белок одного организма. К примеру, для кластера UniRef100_Q71U36 тубулина альфа размер кластера равен 20.

Кластер UniRef90_P21164 размером 15 включал уже некоторые штаммы бактерий вида Moorella thermoacetica и два других вида бактерий, близкородственных им Для выхода за пределы рода у бактерий 90% сходства всё же маловато. Кластер UniRef90_Q71U36 высококонсервативного тубулина же включает уже 213 белков.

А вот кластер UniRef50_P21164 включает в себя 570 белков, что опять же не сравнимо с 3 140 белками у UniRef50_Q71U36. При этом оба кластера вышли на уровень супергрупп (включали в себя все организмы нескольких таксонов, на порядок меньших, чем, соответственно, бактерии и эукариоты).

Поиск по ключам

Далее был произведён поиск по некоторым ключам:

0) name:"formate tetrahydrofolate ligase"

6 566 записей, 300 из них reviewed. В этот поиск попали только необходимые нам белки. Интересно, что данный фермент присутствует даже у животных, но только паразитических.

1) "formate tetrahydrofolate ligase" AND organism:"Moorella thermoacetica (Clostridium thermoaceticum) [1525]"

Было выявлено 6 записей, соответствующих белку formate-tetrahydrofolate ligase. При этом лишь одна из них являлась записью Swiss-prot, а другие 5 - TrEMBL. Понятно, что белок, всего лишь один (последовательности записей соответствуют на 100%), но был скачан с нескольких баз данных;

2) "formate tetrahydrofolate ligase" taxonomy:thermoanaerobacteraceae

Данный запрос выдал 54 записи, 6 из которых являлись записями Swiss-prot. Из этих 6 записей 4 попарно описывали одинаковые белки, аннотированные в одном случае для вида и штамма, а в другом - для рода и вида. Остальные же 48 записей имели отношение к совершенно разным организмам, для двух из которых существование белка было установлено экспериментально (один белок в двух записях).

3) "formate tetrahydrofolate ligase" taxonomy:"Firmicutes [1239]"

3 514 записей, 155 из которых находится в Swiss-prot. Из этих 155 записей 44 лишь относились к Clostridia, и 110 к Bacilli. Последний организм принадлежал к Tissierellia. Но нельзя сказать, что для организмов других отделов этот белок не характерен. Оставалось ещё 202 неподтверждённые записи. Возможно, другие отделы менее изучены.

4.1) name:tubulin -

675 записей Swiss-prot и 47 590 записей TrEMBL. На запрос находятся различные цепи и формы белка. И не только тубулина, а ещё и белков, взаимодействующих с ним.

4.2) name:tubulin taxonomy:metazoa

337 записей Swiss-prot и 14 914 записей TrEMBL. Интересно, что число записей уменьшилось вдвое, что говорит о том, что белки хорошо изучаются в животных, а остальным группам уделяется меньшее внимание.

4.3) name:tubulin taxonomy:metazoa taxonomy:vertebrata

Этот путь я выбрал из-за того, что знаю о наличии лаборатории, которая занимается изучением микротрубочек на позвоночных. Было предположено, что количество записей о позвоночных будет преобладать. Так и получилось. 259 записей Swiss-prot и 5 452 записей TrEMBL. В этих пунктах я устанавливал преобладание по записям Swiss-prot, так как в TrEMBL беспозвоночные и прочие metazoa будут доминировать по количеству проведённых сиквенсов и найденных по гомологии тубулинов.

5.1) name:trypsin

310 записей Swiss-prot и 12 931 записей TrEMBL.

5.2) name:"trypsin inhibitor"

197 записей Swiss-prot и 2 618 записей TrEMBL. Интересно, что больше половины белков, в название которых входит слово trypsin являются ингибиторами.

Отличия RefSeq от Uniprot

Проведём сравнение записей от начала к концу по записи RefSeq.

Обе записи включают поле Defenition, в котором располагаются рекомендуемое имя, дополнительное имя и их сокращения. Поле Acession также содержит одинаковую информацию, как и Dbsource.. Здесь я заканчиваю с перечислением бесконечного числа сходств и приступаю к различиям для экономии места. Записи различаются способами задания строк. В Uniprot перед началом любой строки следует двубуквенный код раздела, а в RefSeq задаются абзацы. Также запись RefSeq более содержательна в Features. В ней описывается функциональная нагрузка каждой части последовательности, в отличие от Uniprot, где описана лишь структура. И, конечно, RefSeq писан строчными буквами, а Uniprot прописными. Других отличий выявлено не было (записи дословно соответствуют друг другу).

История одной записи

История записи с моим белком насчитывает 89 версий. Перечислять все изменения по версиям не считаю хорошей идеей, поэтому проведём сквозной экскурс по её истории.

Появилась запись 1 мая 1991 года, когда группа из трёх учёных отсеквенировала данный белок (при том точно, последовательность не менялась ни разу. Однако менялась классификация бактерий, о чём можно судить по изменению таксонов между версией 9 от 1998-07-15 и 10 от 1998-12-15. Далее, к 11 (далее не буду указывать даты) версии некоторые наименования стали писать строчными буквами. К 19 опять поменялась классификация. К 36 в запись было добавлено описание структурных элементов белка, а к 40 версии запись пополнилась описаниями двух статей тех же учёных, которые создали запись. В 42, 47, 70, 74, 79 версиях пересматривались структурные элементы. В 50 появилась важная строчка "Evidence at protein level". В 53, 68, 73 версиях добавились PDB коды белка. На этом все важные изменения заканчиваются.

Нестандартности

Обозначение Описание
O Пиролизин
U Селеноцистеин
DISULFID Дисульфидный мостик
CARBOHYD Гликолизация
PHOSPHORYLATION Фосфорилирование
METHYLATION Метилирование
CROSSLNK Связь радикал-радикал
ALTERNATIVE PRODUCTS Графа включает продукты альт. сплайсинга
VARIANT Указывает на замену амк. в варианте с указанным кодом

MOD_RES - так в записи обозначаются посттрансляционные модификации. После этого кода идёт текстовое обозначение видоизменения.


© Попов Алексей, 2016 г.