1. Выбор белка

В окне расширенного поиска на сайте UniProt в поле «Organism [OS]» я ввёл название изучаемой бактерии с её TaxID: Francisella tularensis subsp. novicida (strain ATCC 15482 / CCUG 33449 / U112) [401614]. Поиск выдал 4124 записи. Чтобы сузить выбор до функционально значимых молекул, в боковом меню я применил фильтр «Proteins with: Catalytic activity» (белки с каталитической активностью), что сократило список до 420 находок. Для выбора наиболее изученного объекта я отсортировал результаты по убыванию оценки аннотирования (Annotation score). Моё внимание привлёк белок с высокой для данного организма оценкой «5 из 5» — CRISPR-associated endonuclease Cas9. Он был выбран для дальнейшего анализа, так как является ключевым ферментом системы адаптивного иммунитета бактерий и представляет огромный интерес для современной генной инженерии.

2. Информация о белке

Как уже было упомянуто ранее, для анализа была выбрана система CRISPR-Cas9. CRISPR (от англ. clustered regularly interspaced short palindromic repeat — короткие палиндромные повторы, регулярно расположенные группами) — это адаптивная иммунная система, обеспечивающая защиту от мобильных генетических элементов (вирусов, мобильных генетических элементов и конъюгативных плазмид). Кластеры CRISPR содержат спейсеры — последовательности, комплементарные предшествующим мобильным элементам, — и нацелены на вторгшиеся нуклеиновые кислоты. Кластеры CRISPR транскрибируются и преобразуются в CRISPR РНК (crRNA). В системах CRISPR II типа для корректной обработки пре-кРНК требуется транскодируемая малая РНК (tracrRNA), эндогенная рибонуклеаза 3 (rnc) и этот белок. TracrRNA служит направляющей для обработки пре-кРНК с помощью рибонуклеазы 3. Затем Cas9/кРНК/tracrRNA эндонуклеолитически расщепляет линейную или кольцевую двухцепочечную ДНК-мишень, комплементарную спейсеру; в отсутствие двух направляющих РНК (gRNA) Cas9 неактивен. Cas9 распознает короткий мотив в повторяющихся последовательностях CRISPR (PAM, или мотив, примыкающий к протоспейсеру), что помогает отличить «свой» белок от «чужого», поскольку в бактериальном локусе CRISPR нет PAM. Распознавание PAM также необходимо для каталитической активности.

Структура фермента
Рис.2. Третичная структура белка.

3. Кластеры похожих белков

Для данного фермента известно, что размер кластеров UniRef100 состоит из трех белков, а UniRef90 состоит из пятнадцати белков, в то время как в состав кластера UniRef50 входит целых 23 белка. Это говорит о том, что данный белок является довольно нераспространённым (в каком-то смысле уникальным), а также неконсервативным, так как количество белков, последовательности которых совпадают на 50 процентов (UniRef50) значительно превышает количество белков, совпадающих по последовательности с исходным ферментом на 90 и 100 процентов (UniRef90 и UniRef100, соответственно).

4. Посковые запросы

Первый запрос был составлен в режиме продвинутого поиска с заполнением полей Protein Name [DE] (CRISPR-associated endonuclease Cas9) и Taxonomy [OC] (Francisella). Идея заключалась в том, чтобы оценить распространенность данного белка в пределах рода Francisella. По итогам поиска выяснилось, что только у Francisella tularensis subsp. novicida имеется аннотированная запись Cas9 в базе Swiss-Prot (статус Reviewed), в то время как для остальных представителей рода записи на данный момент существуют только в TrEMBL. Аналогично, для всех бактерий (Taxonomy [OC]: Bacteria) было выявлено, что этот фермент представлен лишь ограниченным числом аннотированных в Swiss-Prot записей по сравнению с общим массивом данных. Это подтверждает, что, несмотря на известность системы CRISPR-Cas9, детально верифицированных и экспериментально подтвержденных записей этого белка в базе данных не так много.

Второй запрос был составлен путем заполнения полей Enzyme Classification [EC] (3.1.21.-), Protein Existence [PE] (Evidence at protein level) и Taxonomy [OC] (Francisella). Запрос составлялся с целью выяснить, для каких представителей рода существование данной нуклеазы доказано экспериментально. Как выяснилось, для большинства записей белка указан уровень PE 3 (inferred from homology) или PE 2 (inferred from transcript), и лишь единичные записи имеют статус прямого доказательства на уровне белка. Это позволяет предположить, что функциональная активность Cas9 у многих штаммов предсказана на основе гомологии с уже изученными моделями, хотя записи в Swiss-Prot и проходят тщательную проверку кураторами.

Третий запрос имел целью выявить, насколько часто среди гидролаз порядка Thiotrichales (к которому относится Francisella) встречаются ферменты, требующие ионы магния в качестве кофактора (как и Cas9). Сначала были заполнены поля Taxonomy [OC] (Thiotrichales) и Keyword [KW] (Hydrolase), а затем добавлено поле Keyword [KW] (Magnesium). По первому запросу в базе Swiss-Prot было найдено 62 записи, а по второму — лишь 14. Из полученных результатов можно сделать вывод, что магний-зависимые гидролазы, к которым относится и Cas9, составляют лишь малую часть от общего числа аннотированных гидролаз данной группы. Таким образом, рассматриваемый белок принадлежит к функционально специализированному и относительно немногочисленному семейству ферментов в пределах своего таксона.