Исследование базы данных UniProt
В первом семестре я делал мини-обзор генома Mycobacterium tuberculosis, так что для исследования я выбрал фермент этой бактерии - NAD-киназу, так как недавно я читал статью про митохондриальную NAD-киназу. Чтобы найти данный фермент в базе данных Uniprot, я использовал запрос (taxonomy_id:1773) NAD. Я обнаружил запись P9WHV7, проверенную кураторами UniProtKB. ID выбранной записи: NADK_MYCTU. Ссылка на запись
Фермент катализирует перенос фосфата с ATP или других нуклеозидтрифосфатов на NAD с получением NADP. У белка ожидаемо есть кофактор Mg2+ для пространственно правильного связывания нуклеозидтрифосфатов. Было установлено, что белок может с высокой вероятностью оказаться хорошей мишенью для лекарственных препаратов. Белок присутствует в цитоплазме бактерии.
О распространенности белка по размерам кластеров UniRef судить нельзя, например, потому что таксономическая группа, для которой белок характерен, может быть плохо изучена. Из-за этого в базах данных может быть крайне неполная информация относительно представленности белка, а значит о его распространенности судить невозможно. Консервативность также нельзя оценить только из размера кластеров UniRef, так как, вероятно, даже если кластеры UniRef100, Uniref90 и UniRef50 близки по размеру, все белки в кластерах принадлежат организмам из близкородственных таксонов. Предположу, что консервативность можно оценить только если есть уверенность в том, что в кластере содержатся последовательности белка из достаточно далеких таксономических групп. Тогда чем ближе размеры кластеров UniRef100, Uniref90 и UniRef50, тем консервативнее белок.
Для начала я хотел бы получить информацию о распространенности исследуемого белка. По запросу (protein_name:"NAD kinase") было получено 52934 результата в самых разных таксономических группах, а значит белок крайне распространен. Но я заметил, что отнюдь не все белки считаны с одного гена. Тогда я составил новый запрос - NOT (gene:nadK) AND (protein_name:"NAD kinase"), по которому получил 13188 результатов, среди которых были различные NAD-киназы, например, митохондриальные, пластидные, а также у многих организмов встречаются две изоформы NAD-киназы: NAD-киназа 1 и NAD-киназа 2. Дальше я захотел проверить, считываются ли с данного гена белки кроме NAD-киназы, для этого я сформулировал запрос (gene:nadK) NOT ((protein_name:"NAD kinase") OR (protein_name:"NAD(+) kinase")), так как белок, бывает, называется NAD(+) kinase. По данному запросу я получил 11 результатов, среди которых не было ни одного из базы данных Swiss-Prot. Среди них были NAD-киназы, названные по-другому, а так же две записи рибосомального белка L31 большой субъединицы хлоропластной рибосомы Trichonephila clavata. После небольшого исследования оказалось, что Trichonephila clavata это паук, значит запись ценной информации не несет, а скорее даже наоборот. Таким образом, гену nadK соответсвует исключительно NAD-киназа.