Описание UvrA из Tetragenococcus koreensis

(AC protein: A0AAN4RIM1)[1]

Выбор белка

С помощью расширенного поиска в базе данных Uniprot (Advanced) найдем аннотированные белки Tetragenococcus koreensis. Введя в поле "Organism [OS]" Tetragenococcus koreensis (база данных по умолчанию: UniProtKB), мы получим 2,501 записей (все они из автоматической базы данных TrEMBL).

Среди прочих записей белков, есть аннотация UvrA, важного белка, учавствующего в репарации ДНК. Именно UvrA находит повреждения ДНК, поэтому интересно было бы посмотреть на некторые особенности этого белка.

Информация о белке

Название описываемого белка: белок A системы UvrABC.
Этот белок образует гомодимер и в таком состоянии связывается с гомодимером UvrB. Далее комлекс UvrA2B2 скользит по ДНК (проявляя ГТФ/АТФ-азную активность) и находит повреждения ДНК по нарушению геометрии нуклеотидных пар. Затем UvrA уходит, а UvrC обладая эндонуклеазной актиностью вырезает нуклеотиды по обе стороны нарушения, ДНК-хеликаза, расплетая этот участок удаляет спаривание оснований, приходит ДНК-полимераза, которая застраивает фрагмент и восстанавливает правильную последовательность, а ДНК-лигаза затем сшивает его. Весь этот процесс называется NER (Nucleotide excision repair, эксцизионная репарация нуклеотидов).

Кластеры похожих белков

Для описываемого белка были найдены три кластера, описание можно посмотреть здесь: protein_custers.

UniRef создает кластеры последовательностей UniProtKB на основе уровня идентичности и покрытия.
О распространенности последовательности и консервативности описываемого белка не дают информацию ни один из кластеров UniRef, ведь размер кластера напрямую зависит от аннотации гомологичных белков родственных организмов.
Кластеры UniRef можно использовать для увеличения скорости поиска и обнаружения отдаленных связей[2].
А также UniRef может помогать в поиске ошибок аннотации, ведь кластер объединяет белки с схожей молекулярной функкцией в 97% случаях (исследовано путем анализа терминов Gene Ontology)[3].

Поисковые запросы

Наш первый запрос был таким: (organism_id:290335)
Это дало нам 2,501 белок бактерии Tetragenoccocus koreensis.

UvrA участвует в репарации ДНК, посмотрим, какие белки еще участвуют в репарации.
Запрос: (organism_id:290335) AND (keyword:KW-0234)
(Запрос состоит из двух частей: выдача дает белки из Tetragenoccocus koreensis и одновременно с этим в KW (ключевые слова) должно быть DNA repair).
Всего выдало 34 результата: среди них белки UvrABC системы (NER), mismatch-репарации, белки репарации гомологией (семейство Rec), полимеразы, хеликазы, белки BER (Base excision repair), такие как Uracil-DNA glycosylase, Putative 3-methyladenine DNA glycosylase, а также белок миграции структур Холидея (ruvA).

Описываемый нами белок для связи с ДНК использует домен цинковые пальцы, отберем белки репарации ДНК из Tetragenoccocus koreensis, которые связываются с ДНК, но не посредством цинковых пальцев.
Запрос: (organism_id:290335) AND (keyword:KW-0234) NOT (keyword:KW-0863)
Было найдено 30 белков, а значит цинковые пальцы не основной способ связывания с ДНК во время репарации у Tetragenoccocus koreensis.
(Следует отметить, что 4 белка из 12, имеющих цинковые пальцы, участвуют в репарации.
Запрос: (organism_id:290335) AND (keyword:KW-0863), отбор по такономии и наличию цинковых пальцев, 12 записей.

Теперь посмотрим на белки UvrABC-системы в роде Tetragenoccocus и виде Tetragenoccocus koreensis.

Запросы для поиска белков UvrABC-системы в роде Tetragenoccocus и виде Tetragenoccocus koreensis.
Запрос Количество находок Пояснение
(taxonomy_id:290335) AND (protein_name:UvrA) 1 Поиск среди белков Tetragenoccocus koreensis в имени которых есть UvrA
(protein_name:UvrA) AND (taxonomy_id:51668) 7 Поиск среди белков рода Tetragenoccocus в имени которых есть UvrA
(taxonomy_id:290335) AND (protein_name:UvrABC) 4 Поиск среди белков Tetragenoccocus koreensis в имени которых есть UvrABC
(protein_name:UvrABC) AND (taxonomy_id:51668) 34 Поиск среди белков рода Tetragenoccocus в имени которых есть UvrABC

UvrA представлен одной записью в нашем виде, а если мы смотрим во всем роду Tetragenoccocus, то увидим 1 запись UvrA из Tetragenoccocus koreensis, а 6 из Tetragenoccocus halophilus, возможно связано с плохим прочтением генома или плохой сборкой протеома этого вида.

Если мы ищем записи белков UvrABC системы в Tetragenoccocus halophilus, вместо ожидаемых на первый взгляд 3 записей мы увидим 4, это белок DrrC, выполняющий те же функции, что UvrA [4]

Поиск источника аннотации

В описываемом белке есть предсказанный домен ABC-транспортера,
код ECO:0000259, который обозначает что домен предсказан InterPro автоматически.[5]
Ссылка на источник: PROSITE entry PS50893.

UvrA учавствует в ДНК-репарации, код ECO:0000256, который означает, что это было предсказано автоматически на основе модельной последовательности[6].
Ссылка на источник: ARBA00023204 (Автоматическая система аннотирования).

Последовательность была получена методом секвенирования genome shotgun, код ECO:0000313, который обозначает, что данная информация была получена автоматически на основе импортированной.[7]
Источник: EMBL:GEQ53243.1
На странице источника указано в ключевых словах про genome shotgun, а так как EMBL - архивная база данных, и записи делает человек, этому можно доверять больше, чем автоматической аннотации доменов или функций.

Литература

  1. A0AAN4RIM1.
  2. Барис Э. Сузек, Хунчжан Хуан, Питер МакГарви, Раджа Мазумдер, Кэти Х. Ву, UniRef: комплексные и не избыточные справочные кластеры UniProt, Биоинформатика , том 23, выпуск 10, май 2007 г., страницы 1282–1288, https://doi.org/10.1093/bioinformatics/btm098.
  3. Suzek BE, Wang Y, Huang H, McGarvey PB, Wu CH; UniProt Consortium. UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics. 2015 Mar 15;31(6):926-32. doi: 10.1093/bioinformatics/btu739. Epub 2014 Nov 13. PMID: 25398609; PMCID: PMC4375400.
  4. Furuya K, Hutchinson CR. The DrrC protein of Streptomyces peucetius, a UvrA-like protein, is a DNA-binding protein whose gene is induced by daunorubicin. FEMS Microbiol Lett. 1998 Nov 15;168(2):243-9. doi: 10.1111/j.1574-6968.1998.tb13280.x. PMID: 9835035.
  5. ECO:0000259
  6. ECO:0000256.
  7. ECO:0000313.