С помощью расширенного поиска в базе данных Uniprot (Advanced) найдем аннотированные белки Tetragenococcus koreensis. Введя в поле "Organism [OS]" Tetragenococcus koreensis (база данных по умолчанию: UniProtKB), мы получим 2,501 записей (все они из автоматической базы данных TrEMBL).
Среди прочих записей белков, есть аннотация UvrA, важного белка, учавствующего в репарации ДНК. Именно UvrA находит повреждения ДНК, поэтому интересно было бы посмотреть на некторые особенности этого белка.
Название описываемого белка: белок A системы UvrABC.
Этот белок образует гомодимер и в таком состоянии связывается с гомодимером UvrB.
Далее комлекс UvrA2B2 скользит по ДНК (проявляя ГТФ/АТФ-азную активность) и
находит повреждения ДНК по нарушению геометрии нуклеотидных пар. Затем UvrA уходит, а UvrC обладая эндонуклеазной актиностью
вырезает нуклеотиды по обе стороны нарушения, ДНК-хеликаза, расплетая этот участок
удаляет спаривание оснований, приходит ДНК-полимераза, которая застраивает фрагмент и восстанавливает правильную последовательность, а ДНК-лигаза затем сшивает его. Весь этот процесс называется
NER (Nucleotide excision repair, эксцизионная репарация нуклеотидов).
Для описываемого белка были найдены три кластера, описание можно посмотреть здесь: protein_custers.
UniRef создает кластеры последовательностей UniProtKB
на основе уровня идентичности и покрытия.
О распространенности последовательности и консервативности описываемого белка не дают информацию ни один из кластеров UniRef,
ведь размер кластера напрямую зависит от аннотации гомологичных белков родственных организмов.
Кластеры UniRef можно использовать для увеличения скорости поиска и обнаружения отдаленных связей[2].
А также UniRef может помогать в поиске ошибок аннотации, ведь кластер объединяет белки с схожей молекулярной функкцией в 97% случаях (исследовано путем анализа терминов Gene Ontology)[3].
Наш первый запрос был таким: (organism_id:290335)
Это дало нам 2,501 белок бактерии Tetragenoccocus koreensis.
UvrA участвует в репарации ДНК, посмотрим, какие белки еще участвуют в репарации.
Запрос: (organism_id:290335) AND (keyword:KW-0234)
(Запрос состоит из двух частей: выдача дает белки из Tetragenoccocus koreensis и
одновременно с этим в KW (ключевые слова) должно быть DNA repair).
Всего выдало 34 результата: среди них белки UvrABC системы (NER), mismatch-репарации, белки репарации гомологией (семейство Rec), полимеразы, хеликазы, белки BER (Base excision repair), такие как Uracil-DNA glycosylase, Putative 3-methyladenine DNA glycosylase, а также белок миграции структур Холидея (ruvA).
Описываемый нами белок для связи с ДНК использует домен цинковые пальцы, отберем белки репарации ДНК из Tetragenoccocus koreensis, которые связываются с ДНК, но не посредством цинковых пальцев.
Запрос: (organism_id:290335) AND (keyword:KW-0234) NOT (keyword:KW-0863)
Было найдено 30 белков, а значит цинковые пальцы не основной способ связывания с ДНК во время репарации у Tetragenoccocus koreensis.
(Следует отметить, что 4 белка из 12, имеющих цинковые пальцы, участвуют в репарации.
Запрос: (organism_id:290335) AND (keyword:KW-0863), отбор по такономии и наличию цинковых пальцев, 12 записей.
Теперь посмотрим на белки UvrABC-системы в роде Tetragenoccocus и виде Tetragenoccocus koreensis.
Запрос | Количество находок | Пояснение |
---|---|---|
(taxonomy_id:290335) AND (protein_name:UvrA) | 1 | Поиск среди белков Tetragenoccocus koreensis в имени которых есть UvrA |
(protein_name:UvrA) AND (taxonomy_id:51668) | 7 | Поиск среди белков рода Tetragenoccocus в имени которых есть UvrA |
(taxonomy_id:290335) AND (protein_name:UvrABC) | 4 | Поиск среди белков Tetragenoccocus koreensis в имени которых есть UvrABC |
(protein_name:UvrABC) AND (taxonomy_id:51668) | 34 | Поиск среди белков рода Tetragenoccocus в имени которых есть UvrABC |
UvrA представлен одной записью в нашем виде, а если мы смотрим во всем роду Tetragenoccocus, то увидим 1 запись UvrA из Tetragenoccocus koreensis, а 6 из Tetragenoccocus halophilus, возможно связано с плохим прочтением генома или плохой сборкой протеома этого вида.
Если мы ищем записи белков UvrABC системы в Tetragenoccocus halophilus, вместо ожидаемых на первый взгляд 3 записей мы увидим 4, это белок DrrC, выполняющий те же функции, что UvrA [4]
В описываемом белке есть предсказанный домен ABC-транспортера,
код ECO:0000259, который обозначает что домен предсказан InterPro автоматически.[5]
Ссылка на источник: PROSITE entry PS50893.
UvrA учавствует в ДНК-репарации, код ECO:0000256, который означает, что это было предсказано автоматически
на основе модельной последовательности[6].
Ссылка на источник: ARBA00023204 (Автоматическая система аннотирования).
Последовательность была получена методом секвенирования genome shotgun, код ECO:0000313, который обозначает,
что данная информация была получена автоматически на основе импортированной.[7]
Источник: EMBL:GEQ53243.1
На странице источника указано в ключевых словах про genome shotgun, а так как EMBL - архивная база данных, и записи делает человек, этому можно доверять больше, чем автоматической аннотации доменов или функций.