Исследование базы данных UniProt

В первом семестре я делал мини-обзор генома Acinetobacter calcoaceticus, так что для исследования я выбрал фермент этой бактерии - альфа-субъединицу комплекса окисления жирных кислот, потому что мне интересны ферменты данного катаболического пути. Чтобы найти данный фермент в базе данных Uniprot, я использовал запрос (taxonomy_id:471) AND (keyword:NAD), всего я получил 398 находок. Я обнаружил запись R8Y3C3, имеющую Annotation score 5/5. ID выбранной записи: R8Y3C3_ACICA. Ссылка на запись

Исследуемый белок вовлечён в аэробный и анаэробный распад длинооцепочечных жирных кислот. Помимо этого белок катализирует образование 3-оксоацил-КоА из еноил-КоА через 3-гидроксиацил-КоА. Белок присутствует в цитоплазме бактерии.

Большие размеры баз данных UniRef, скорее всего, указывают на распространённость и консервативность исследуемых белков, так как большой размер этих баз данных указывает на то, что всего существует много различных белков у разных организмов с похожей на исследуемый белок функцией и последовательностью. Но, с другой стороны, если белок изучен плохо, то и размер баз данных будет, вероятно, маленький. В таком случае о распространённости и консервативности белка судить тяжело.

Сначала мне бы хотелось узнать, насколько распространён исследуемый белок в принципе. Для этого я ввёл запрос (protein_name:"Fatty acid oxidation complex subunit alpha"), было получено 7898 результатов. Далее я захотел узнать, сколько белков с таким названием кодируются геном fadB. Для этого я применил запрос (protein_name:"Fatty acid oxidation complex subunit alpha") AND (gene:fadB), было получено 4010 результатов, что указывает на то, что белок с таким же названием кодируется разными генами. Также мне стало интересно, есть ли этот белок у каких-нибудь эукариот. Для этого я применил запрос (protein_name:"Fatty acid oxidation complex subunit alpha") AND (taxonomy_id:2759), я получил 69 результатов. Исходя из этого у меня появилась гипотеза, что этот белок был перенесён в эукариотические организмы способом горизонтального переноса генов. Чтобы как-то подкрепить или опровергнуть свою гипотезу, я использовал запрос (protein_name:"Fatty acid oxidation complex subunit alpha") AND (taxonomy_id:2759) AND (gene:fadB), на что я получил 3 результата, что, вероятно, в этих конкретных случаях позволяет предположить, что белок был перенесён горизонтальным переносом в эти организмы.

В записи белка указаны разные коды ECO. Так, например, в записи указано, что белок может осуществлять реакцию изомеризации (3S)-3-гидроксибутаноил-КoA в (3R)-3-гидроксибутаноил-КoA и указан код {ECO:0000256|HAMAP-Rule:MF_01621}. ECO:0000256 означает, что данная особенность была указана исходя из первичной структуры белка. В качестве доказательства приводится база данных HAMAP-Rule:MF_01621. Исходя из того, что удалось найти, это указывает на то, что осуществляется оценка степени родства данного белка и других, катализирующих данную реакцию изомеризации через базу данных InterPro. Ещё в записи белка есть пометка о том, что последовательность белка, данная в записи, импортирована из EMBL/GenBank/DDBJ. Эта пометка сопровождается кодом {ECO:0000313|EMBL:EOQ62002.1}, что, судя по всему, указывает на то, что данные импортированы из базы данных EMBL. EOQ62002.1, видимо, ID белка в базе данных EMBL. Также есть предписание о том, что в молекуле белка есть NAD+-связывающий дегидрогеназный домен. Это предписание сопровождается кодом "ECO:0000259|Pfam:PF02737", что, видимо, аналогично первому примеру (белковый домен предсказан на основании аминокислотной последовательности и родственных связей белка с другими).