Практикум 7
Резюме: В ходе работы над данным практикумом были освоены базовые навыки работы с UniProt (базы данных UniProtKB и UniRef) и изучена некоторая информация о альфа-субъединице уреазы из Streptococcus thermophilus - бактерии, геном и протеом которой анализировались в прошлом семестре. Ссылка на мини-обзор: mini-review.
Выбор белка
Благодаря практической значимости Streptococcus thermophilus в UniProtKB много записей белков, принадлежащих этой бактерии. По запросу (organism_id:1308), что соответствует виду Streptococcus thermophilus, можно найти 9467 записей. Но из всех белков я выбрал альфа-субъедицу уреазы, так как по некоторым данным способность Streptococcus thermophilus к катаболизму мочевины играет важную роль в сообществах молочнокислых бактерий (аммоний, получающийся в реакции, катализируемой уреазой, может ускорять закисление среды) [ссылка на источник].
Сам белок можно найти по запросу (protein_name:"urease subunit alpha") AND (taxonomy_name:"Streptococcus thermophilus").
UniProtKB ID: Q5M1G6
Информация о белке
Белок, который я выбрал - альфа-субъединица уреазы (UreC), одна из трех субъединиц, которые объединяются в гетеротример. Активный фермент получается при ассоциации трех гетеротримеров. Уреаза катализирует реакцию гидролиза мочевины с получением углекислого газа и аммония. Уреаза - это никель-содержащий фермент (по 2 иона никеля на субъединицу), ионы никеля могут координироваться с помощью карбоксилированного лизина. Фермент имеет цитозольную локализацию.
P.S. Все это я узнал из поля CC (comments) записи.
Кластеры похожих белков
Уреаза - достаточно важный фермент, так как она участвует в азотистом обмене. Об этом можно сделать вывод и при анализе кластеров UniRef. В UniRef100 содержатся 3 белка из разных штаммов Streptococcus thermophilus, а в UniRef90 уже 66 белков из организмов, очень разных по систематическому положению (минимальная систематическя группа, которая их связывает - филум Bacteria). В кластере UniRef50 уже 1722 белка из разных групп бактерий. Это позволяет сделать предположение о широкой распространенности и высокой консервативности уреазы (тк высоко идентичные последовательности уреазы встречаются в далеких по положению систематических группах).
Поисковые запросы
Я уже сделал вывод о консервативности и распространенности альфа-субъединицы уреазы, поэтому решил удостовериться в этом и для бета-субъединицы. Для этого я сначала узнал UniProtKB ID этого белка с помощью запроса (protein_name:"urease subunit beta") AND (taxonomy_id:1308). Потом я нашел кластеры, в которые входит этот белок с помощью запроса (uniprot_id:Q03ME4). После этого мне вдруг стало интересно, какие еще белки моей бактерии являются никель-связывающими. Изучив запись белка, я увидел, что об этом пишут в поле KW (keywords). Для поиска я использовал запрос (taxonomy_id:1308) AND (keyword:nickel) NOT (protein_name:urease). Оказалось, что помимо субъединиц уреазы, ионы никеля содержит еще и какой-то траскрипционный фактор, опосредованно регулирующий синтез биотина (Biotin repressor family transcriptional regulator).
Поиск источника аннотации
ECO (Evidence Codes Onthology) - это, насколько я понял, попытка формализовать 'доказательства' наличия какой-то информации (я не знаю как уместнее это перевести). Соотвественно, каждый код обозначает 'индивидуальный тип доказательства наличия аннотации' и, где применимо, указывается источник. В моей записи присутствует только один код ECO - {ECO:0000255|HAMAP-Rule:MF_01953} и, соответственно, ссылки на одну запись из базы данных HAMAP. В этой базе данных белки автоматически аннотируются на основании принадлежности к семействам или подсемействам белков (по крайнем мере, так я понял их самоописание). HAMAP тесно связан с UniProtKB, и в принципе создан, чтобы улучшить аннотации в UniProtKB. Я не вижу смысла приводить отдельные факты про свой белок здесь, так как записи в этих двух базах данных практически идентичны. Скажу только, что вся информация про то, что белок связывает ионы никеля взята из HAMAP (как вы могли понять, мне очень понравился никель). Мне кажется, в случае уреазы можно доверять аннотациям, так как довольно легко ее отнести к нужной группе белков.