Практикум 3: прогулка по UniProt
Мотивация выбора белка
В предыдущих практикумах я исследовал белки локуса fas грамположительного фитопатогена Rhodococcus fascians - этот локус, по-видимому, и обуславлиевает вирулентность бактерии путём синтеза цитокининоподобных веществ и, собственно, большую часть внимания исследователей родококк привлекает именно благодаря ему. Однако на этот раз я решил отойти в сторону от магистральной темы и решил взглянуть на базальный метаболизм родококка. Запросы (taxonomy_id:1828) и (taxonomy_id:1828) AND (reviewed:true) демонстрируют, что из 14991 белка родококка вручную были аннотированы лишь 12. В практикуме 8 мы немного порассуждали о том, что принадлежность записи о белке к swiss-prot не является однозначным показателем её качества, однако, возможно, она может показать нам, что к рассматриваемому белку существует или существовал некоторый интерес. Таким образом, мой выбор пал на глицин-дегидрогеназу: (accession:Q8G9M2).
Поисковые запросы
Разобравшись с устройством записи о дегидрогеназе и UniParc-кластерами, её содержащими, попробуем лучше понять специфику работы белка.
Поля CC сообщают нам, что фермент функционирует не в одиночку, а в составе гетеротетрамера, и всё вместе это называется системой расщепления глицина, англ. "Glycine cleavage system". Было бы интересно взглянуть, все ли 4 её компонента - P (наш белок), L, H и T - представлены у родококка.
Запрос (protein_name:"Glycine cleavage system") AND (taxonomy_id:1828) обнаруживает отсутствие субъединицы L - в этом комплексе она единственная некаталитическая, но именно она содержит лизин, служащий "ручкой" для липолевой кислоты. На самом деле, так и должно быть: наличие субъединицы L предполагается лишь по аналогии с механизмом фермента дигидролипоамид-дегидрогеназы, но физически оно установлено не было.
Но почему бы не проверить актуальность данных об отсутствии L-субдъединицы запросом? (protein_name:"Glycine cleavage system") AND (gene:gcvL) - и в самом деле, нет.
А почему бы теперь не проверить, есть ли L-субъединица у уже упомянутой дигидролипоамид-дегидрогеназы? (gene:gcvL) AND (protein_name:"Dihydrolipoyl dehydrogenase") - и в самом деле, есть несколько находок.
Evidence code и источники аннотаций
Во всей Uniprot-записи для глицин-дегидрогеназы приводится единственный evidence code - ECO:0000255. Насколько мне удалось разобраться (см. рис. 2), это означает, что белок был аннотирован в том числе вручную с использованием автоматических алгоритмов, что вполне соответствует protein existence-оценке исследумого белка в 3 (т. е. аннотация по гомологии). Кроме того, запись ссылается на экспериментальную статью, в которой, однако, наш фермент не упоминается ни разу.