Работа с базой данных UniProt
В первом семестре я работала с геномом организма Natrinema salinisoli. Однако при попытке поиска в базе данных каких-либо белков, описанных для данного организма, не было обнаружено ни одной записи. Запрос для поиска выглядит так: (organism_name:" Natrinema salinisoli")
В связи с отсутсвием имнформации о белках данного вида, я обратилась к литературным источникам. Согласно данным статьи, в которой описывается выделение организмов данного вида из природной среды, Natrinema salinisoli имеет близкого родственника Natrinema halophilum. Причем родство описано на основании сравнения в том числе последовательности гена под названием rpoB′.
Именно по названию этого гена был произведен поиск описания белковой структуры. Для поиска в базе данных был использован запрос (organism_id:1699371) AND (gene:rpoB′) Оказалось, что этот ген кодирует бета-субъединицу ДНК-зависимой РНК полимеразы.
Выбранный мною белок входит в ферментативный комплекс РНК-полимеразы, которая осуществляет трансляцию. По литературным данным описываемая субъединица является регуляторной для всей полимеразы. С ней взаимодействуют факторы регулции, которые, например, активны во время недостатка питательных веществ.
При поиске данной структуры я заметила, что ферменты с аналогчиным названием у организмов группы Euryarcheota, то есть группы в которую входит обозреваемый организм, могут иметь имя гена, не совпадающее с именем в описываемой мной записи. По моему мнению такого быть не должно, учитывая высокую консервативность описываемого фермента. Чтобы понять почему так произошло, я использовала команду поиска (protein_name:"DNA-directed RNA polymerase subunit beta") AND (taxonomy_id:88723) NOT (gene:rpoB) (здесь группа Natrinema была выбрана для сужения группы поиска и соответсвенно разброса). По этому запросу было найдено 12 записей, однако при их подробном изучении стало понятно, что название гена для них просто не аннотировано, а критерием поиска по сути стали названия ORF, которые, конечно, не совпадают с названием гена.
Далее, учитывая на информацию о регулятроной функции данной субъединицы, я решила выяснить связывается ли данная субъединица с ДНК напрямую или лишь опосредованно, через прочие субъединицы комплекса полимеразы. По данным UniProt, субъединица является ДНК-связывающей, однако, стоит учесть что данная характеристика была дана при автоматической аннотации. В попытках проверить истинность данной информации я решила поискать информацию о данной субъединице у организмов близких к описываемому, но уже с аннотацией, основывающейся на действительно выделенный белок. Однако, даже при поиске таковых среди большой группы Euryarcheota: (protein_name:"DNA-directed RNA polymerase subunit beta") AND (taxonomy_id:28890) AND (existence:1), подходящие данные найти не удалось.
В аннотации к белку указано, что у него присутствует ион цинка в роли кофактра. Я решила посмотреть рапространенность данного явления среди ферментов данного класса внутри группы Euryarcheota. Для этого я использовала запрос " (EC:2.7.7.6)" AND (cc_cofactor_chebi:"CHEBI:29105") AND (taxonomy_id:28890). По нему было найдено более 4.5 тысяч записей, что указывает на высокую частоты данного явления у архей.