Анализ белка RecA из бактерии Ciceribacter thiooxidans

Первое задание

Для выбора подходящего белка первым делом я перешел на сайт UniProt и, использовав запрос "(organism_id:1969821)", нашел все аннотированные белки своей бактерии, их было 11 штук. Из всех белков только два имели Annotation score больше 1- RecA (AC- A0A223HGY9) и B-субъединица ДНК-гиразы (AC-A0A167VI01). Я выбрал первый белок, потому что у него на мой взгляд более интересная функция - он принимает участие в репарации ДНК.

Второе задание

Рекомбиназа RecA это белок выполняющий несколько функций, связанных с репарацией ДНК в клетках бактерий. Он осуществляет репарацию по механизму гомологичной рекомбинации, использую энергию гидролиза АТФ. Это очень большой кластер белков, гомологичные им белки у эукариот называются Rad51- и Dmc1-белки

Третье задание

Просто количество белков в кластерах UniRef50 или UniRef90 не позволяет судить о его распространенности, так как здесь никак не учитывается филогенетическая близость организмов. Например, возможна ситуация, когда виды одного семейства бактерий очень хорошо описаны, в таком случае в кластере UniRef90 для конкретного белка будет очень много белков бактерий этого семейства.

Однако возможна и другая ситуация- некий белок очень консервативен и представлен у бактерий из большого числа групп, но количество бактерий в каждой такой группе не такое уж большое. В таком случае мы будем видеть такую же картину, как и в прошлом случае - количество белков в кластере UniRef90 будет довольно большим, но причина этого противоположна. В первом случае это вызвано большим количеством описанных бактерий в одной группе, а в другом большим количеством групп, имеющим консервативный белок.

Четвертое задание

Учитывая функцию белка, сначала я проверил способность белка прикрепляться к ДНК. Для этого я использовал запрос (gene:recA)AND(ft_dna_bind:*), однако результатов найдено не было. Я предполагаю, что отсутствуие конкретных сайтов связано с тем, что у данного белка их нет, он просто устраняет разрывы в цепи ДНК. То есть гипотетически он может присоединиться в любом месте геномной ДНК.

Следующим шагом я проверил наличие посттрансляционных модификаций, сначала гликозилирования запросом (gene:recA) AND (ft_carbohyd:*) и присоединения липидов запросом (gene:recA)AND(ft_lipid:*), однако оба запроса не дали результатов. Скорее всего, данному белку просто незачем присоединение липидов или остатков сахаров для выполнения своих функций. Аналогично я проверил наличие посттрансляционных модификаций аминокислот запросом (gene:recA)AND(ft_mod_res:*) и получил 3 результата, но все они были для эукариотических организмов. Самой частой модификацией ожидаемо стало фосфорилирование, у одного организма также был N-ацетилаланин. Из интересного стоит отметить, что у зооксантеллы Symbiodinium microadriaticum фосфорилируется 414 остаток аспарагиновой кислоты, формируя 4-аспартилфосфат.

Далее я решил проверить, что происходит с организмами в случае потери белка RecA. Я нашел 8 подходящих результатов используя запрос (cc_disruption_phenotype:*)AND(gene:recA). Эффекты были различными, у каких-то культур отсутсвовали заметные измненения, какие-то начинали лучше адаптироваться к быстро меняющимся условиям культивирования (phase variation), но основные эффекты это замедленный рост колоний и сниженная на 6-7 порядков устойчивость к ионизирующему излучению. Это ожидаемо, т.к. основная часть мутаций и разрывов в ДНК вызвана ионизирующим излучением. Стоит отметить, что для описанных культур данная мутация не была летальна (дополнительно подтверждено отсутствием результатов по запросу (cc_disruption_phenotype:*lethal*)AND(gene:recA)). Это не должно шокировать, т.к. в большинстве бактериальных клеток существует альтернативный способ репарации ДНК - негомологичное соединение концов (NHEJ).

Наконец, учитывая сложность процесса репарации, я предположил, что RecA должен взаимодействовать с несколькими разными белками для успешного осуществления своих функций. Чтобы это проверить, я использовал запрос (gene:recA) AND((database:biogrid) OR (database:complexportal) OR (database:corum) OR (database:dip) OR (database:elm) OR (database:intact) OR (database:mint) OR (database:string)). По нему я нашел 8082 результата (включая несколько эукариот), что подтвердило мою гипотезу.

Пятое задание

В описании этого белка используется только 2 различных кода ECO. В разделе ключевые особенности указано присоединение АТФ и дан код {ECO:0000256|ARBA:ARBA00022840, ECO:0000256|RuleBase:RU004527}. ECO:0000256 означает, что данная особенность была предписана автоматически исходя из аминокислотной последовательности белка. В качестве доказательства приводятся ARBA:ARBA00022840 и RuleBase:RU004527. Если перейти на соответствующую страницу ARBA, то можно увидеть в чем заключается доказательство. Проверяется, является ли белок родственным белкам, для которых была показана способность присоединять АТФ. Это делается, сверяя так называемый InterPro signature - на стороннем сайте InterPro собраны отдельные белковые домены, белки или кластеры белков, и каждому из них присвоен свой идентификатор- InterPro signature. Получается, что при таком подходе вывод о способности связывать АТФ делается исключительно основываясь на гомологии. Это дает далеко не 100% точность, т.к. вывод делается основываясь на полной последовательности аминокислот, но никак не учитываются мутации конкретных аминокислот, которые в данном случае могут быть необходимы для присоединения АТФ.

Другой особенностью указано присоединение к ДНК и дан код {ECO:0000256|ARBA:ARBA00023125, ECO:0000256|RuleBase:RU004527}. В данном случае все аналогично предыдущему примеру, только ARBA00023125 отсылается на InterPro signature уже других белков и доменов, для которых было показано присоединение к ДНК.

Для данной бактерии указан штамм F21 и дан код {ECO:0000313|EMBL:AST48485.1}. ECO:0000313 означает, что данное предписание было сделано автоматически, импортировав данные из другой базы данных, в данном случае из EMBL. AST48485.1 является ID, по которому в указанной базе данных можно найти данный белок данной бактерии, в нашем случае RecA из Ciceribacter thiooxidans. Т.к. это не какое-то предсказание основанное на внутреннем алгоритме UniProt, а информация из другой базы данных, доверие к ней выше, чем к первым двум примерам. Опять же, все зависит от базы данных, откуда это было импортировано, но в данном случае информация в ней выглядит достоверной.