Белок, который я изучал - formate-tetrahydrofolate ligase. Он является одним из ферментов, участвующих в межмолекулярном переносе одноуглеродных врагментов, одном из важнейших элементов различных биосинтетических путей.
Параметр | Значение |
Uniprot ID | FTHS_MOOTH |
Uniprot AC | P21164 |
Refseq ID | - |
PDB IDs | 1EG7, 1FP7, 1FPM, 3QUS, 4JIM, 4JJK, 4JJZ, 4JKI |
Длина | 559 AA |
Молекулярная масса | 59993 MW |
Рекомендуемое название | Formate--tetrahydrofolate ligase |
Поиск в Uniprot по CDS ID не дал результатов, поэтому пришлось использовать PDB код, соответствующий белку организма Moorella thermoacetica. Рекомендуемое имя белка, как и утверждалось ранее, formate--tetrahydrofolate ligase. При этом белок имеет 8 идентификаторов PDB: 1EG7; 1FP7; 1FPM; 3QUS; 4JIM; 4JJK; 4JJZ; 4JKI. Большое количество идентификаторов является закономерным для большинства записей в Uniprot. При этом у белка отсутствует идентификатор RefSeq, что свидетельствует об отсутствии его в базе данных RefSeq. Однако, NCBI выдаёт результаты по запросу ALX07041.1.
Но, не смотря на это, белок имеет 3D структуру и его существование подтверждено экспериментально. Судя по записи Uniprot, белок имеет массу 59993 MW и длину 559 AA. В базе данных он представлен одной цепью. Последней интересной вещью, которую можно вынести из записи, является доля аминокислот, входящих в состав Альфа спиралей. С помощью Excel было выявлено, что они составляют около 36% от всех аминокислот в белке.
Далее было произведено рассмотрение кластеров UniRef, включающих в себя данный белок. Очевидно, что бактериальные белки не очень консервативны, поэтому кластер UniRef100_P21164 включал в себя лишь один белок одного организма. К примеру, для кластера UniRef100_Q71U36 тубулина альфа размер кластера равен 20.
Кластер UniRef90_P21164 размером 15 включал уже некоторые штаммы бактерий вида Moorella thermoacetica и два других вида бактерий, близкородственных им Для выхода за пределы рода у бактерий 90% сходства всё же маловато. Кластер UniRef90_Q71U36 высококонсервативного тубулина же включает уже 213 белков.
А вот кластер UniRef50_P21164 включает в себя 570 белков, что опять же не сравнимо с 3 140 белками у UniRef50_Q71U36. При этом оба кластера вышли на уровень супергрупп (включали в себя все организмы нескольких таксонов, на порядок меньших, чем, соответственно, бактерии и эукариоты).
Далее был произведён поиск по некоторым ключам:
0) name:"formate tetrahydrofolate ligase"
6 566 записей, 300 из них reviewed. В этот поиск попали только необходимые нам белки. Интересно, что данный фермент присутствует даже у животных, но только паразитических.
1) "formate tetrahydrofolate ligase" AND organism:"Moorella thermoacetica (Clostridium thermoaceticum) [1525]"
Было выявлено 6 записей, соответствующих белку formate-tetrahydrofolate ligase. При этом лишь одна из них являлась записью Swiss-prot, а другие 5 - TrEMBL. Понятно, что белок, всего лишь один (последовательности записей соответствуют на 100%), но был скачан с нескольких баз данных;
2) "formate tetrahydrofolate ligase" taxonomy:thermoanaerobacteraceae
Данный запрос выдал 54 записи, 6 из которых являлись записями Swiss-prot. Из этих 6 записей 4 попарно описывали одинаковые белки, аннотированные в одном случае для вида и штамма, а в другом - для рода и вида. Остальные же 48 записей имели отношение к совершенно разным организмам, для двух из которых существование белка было установлено экспериментально (один белок в двух записях).
3) "formate tetrahydrofolate ligase" taxonomy:"Firmicutes [1239]"
3 514 записей, 155 из которых находится в Swiss-prot. Из этих 155 записей 44 лишь относились к Clostridia, и 110 к Bacilli. Последний организм принадлежал к Tissierellia. Но нельзя сказать, что для организмов других отделов этот белок не характерен. Оставалось ещё 202 неподтверждённые записи. Возможно, другие отделы менее изучены.
4.1) name:tubulin -
675 записей Swiss-prot и 47 590 записей TrEMBL. На запрос находятся различные цепи и формы белка. И не только тубулина, а ещё и белков, взаимодействующих с ним.
4.2) name:tubulin taxonomy:metazoa
337 записей Swiss-prot и 14 914 записей TrEMBL. Интересно, что число записей уменьшилось вдвое, что говорит о том, что белки хорошо изучаются в животных, а остальным группам уделяется меньшее внимание.
4.3) name:tubulin taxonomy:metazoa taxonomy:vertebrata
Этот путь я выбрал из-за того, что знаю о наличии лаборатории, которая занимается изучением микротрубочек на позвоночных. Было предположено, что количество записей о позвоночных будет преобладать. Так и получилось. 259 записей Swiss-prot и 5 452 записей TrEMBL. В этих пунктах я устанавливал преобладание по записям Swiss-prot, так как в TrEMBL беспозвоночные и прочие metazoa будут доминировать по количеству проведённых сиквенсов и найденных по гомологии тубулинов.
5.1) name:trypsin
310 записей Swiss-prot и 12 931 записей TrEMBL.
5.2) name:"trypsin inhibitor"
197 записей Swiss-prot и 2 618 записей TrEMBL. Интересно, что больше половины белков, в название которых входит слово trypsin являются ингибиторами.
Проведём сравнение записей от начала к концу по записи RefSeq.
Обе записи включают поле Defenition, в котором располагаются рекомендуемое имя, дополнительное имя и их сокращения. Поле Acession также содержит одинаковую информацию, как и Dbsource.. Здесь я заканчиваю с перечислением бесконечного числа сходств и приступаю к различиям для экономии места. Записи различаются способами задания строк. В Uniprot перед началом любой строки следует двубуквенный код раздела, а в RefSeq задаются абзацы. Также запись RefSeq более содержательна в Features. В ней описывается функциональная нагрузка каждой части последовательности, в отличие от Uniprot, где описана лишь структура. И, конечно, RefSeq писан строчными буквами, а Uniprot прописными. Других отличий выявлено не было (записи дословно соответствуют друг другу).
История записи с моим белком насчитывает 89 версий. Перечислять все изменения по версиям не считаю хорошей идеей, поэтому проведём сквозной экскурс по её истории.
Появилась запись 1 мая 1991 года, когда группа из трёх учёных отсеквенировала данный белок (при том точно, последовательность не менялась ни разу. Однако менялась классификация бактерий, о чём можно судить по изменению таксонов между версией 9 от 1998-07-15 и 10 от 1998-12-15. Далее, к 11 (далее не буду указывать даты) версии некоторые наименования стали писать строчными буквами. К 19 опять поменялась классификация. К 36 в запись было добавлено описание структурных элементов белка, а к 40 версии запись пополнилась описаниями двух статей тех же учёных, которые создали запись. В 42, 47, 70, 74, 79 версиях пересматривались структурные элементы. В 50 появилась важная строчка "Evidence at protein level". В 53, 68, 73 версиях добавились PDB коды белка. На этом все важные изменения заканчиваются.
Обозначение | Описание |
O | Пиролизин |
U | Селеноцистеин |
DISULFID | Дисульфидный мостик |
CARBOHYD | Гликолизация |
PHOSPHORYLATION | Фосфорилирование |
METHYLATION | Метилирование |
CROSSLNK | Связь радикал-радикал |
ALTERNATIVE PRODUCTS | Графа включает продукты альт. сплайсинга |
VARIANT | Указывает на замену амк. в варианте с указанным кодом |
MOD_RES - так в записи обозначаются посттрансляционные модификации. После этого кода идёт текстовое обозначение видоизменения.