Поиск белка с заданной функциональной специфичностью

Задача - определить, есть ли белок с заданной специфичностью (scrr) в заданном протеоме (Xanthomonas campestris pv. campestris (strain B100)).
  1. Первый этап: описание функциональных особенностей заданной группы

    Заданный белок-прототип B5Y088_KLEP3 выделен из бактерии Klebsiella pneumoniae (strain 342), поэтому описание его специфических функциональных свойств поищем в документе UniProt. Итак, заданный белок - репрессор сахарозного оперона (Sucrose operon repressor). Имя гена - scrR, длина последовательности - 334 аминокислотных остатка. Интересно, что в полной аннотации GO не представлено главной функции белка - регуляции транксрипции сахарозного оперона и связывания с сахарозой. Единственный термин GO из онтологии Cellular Component - "внутриклеточный" (intracellular). Термины из онтологии Molecular Function дают представление лишь о том, что белок связывается с ДНК и транскрипционным фактором. Термины из онтологии Biological Process уточняют, что белок участвует в регуляции транскрипции и отвечает на стимул фруктозой.
    Таким образом, в аннотации GO нет ни слова об эффекторе белка B5Y088_KLEP3 - сахарозе.
    Найдем в БД KEGG LIGAND структурную формулу сахарозы:
  2. Второй этап: создание множественного выравнивания доменов с разметкой по группам специфичности

    1. Создание хорошего множественного выравнивания доменов заданной группы белков (эффекторсвязывающих доменов белков группы специфичности scrr)

      Построим множественное выравнивание эффекторсвязывающих доменов группы специфичности scrr. Для этого найдем на сайте БД Pfam доменную организацию белка-прототипа B5Y088_KLEP3. Она выглядит так:

      Зеленым на ней отмечен ДНК-связывающий домен, розовым - эффекторсвязывающий домен. Перейдем на страничку с описанием эффекторсвязывающего домена и получим выравнивание всех эффекторсвязывающих доменов в формате FASTA. Сохраним выравнивание в файле PF00532_full.fasta.
      Теперь напишем скрипт для того, чтобы из полного выравнивания получить выравнивание нужных доменов, идентификаторы которых указаны в файле scrr. Скрипт сохранен в файле scrr.scr.
      Множественное выравнивание эффекторсвязывающих доменов белков группы специфичности scrr сохранено в файле PF00532_scrr.fasta.
    2. Создание единого множественного выравнивания заданных доменов всех групп специфичности (эффекторсвязывающего и ДНК-связывающего)

      Импортируем в GeneDoc выравнивания эффекторсвязывающих доменов (группы специфичности scrr) и объявим последовательности новой группой (кнопка меню "Groups=>Edit sequence groups"). Назовем группу именем группы специфичности (scrr). Зададим цвет для маркировки последовательностей этой группы.
      После этого последовательно добавим по одному выравниванию доменов с разной специфичностью (кнопка "S"), каждый раз объявляя новую группу. Получим раскраску по группам.
      Раскрашенное выравнивание эффекторсвязывающих доменов сохранено в файле effectbind.htm. Выравнивание сохранено в файле effectbind.msf.

      Последовательности доменов заданной группы специфичности scrr расположены наверху, названия содержащих их белков окрашены в салатовый цвет. В другие цвета окрашены названия белков, содержащих домены разных групп специфичности (например, названия белков с доменами группы специфичности laci окрашены в вишневый цвет, mali - в оранжевый цвет и т.д.). Колонки букв, окрашенные цветом, совпадающим с цветом названия белков, указывают на позиции, консервативные в доменах соответствующей группы специфичности. Единственная позиция, консервативная в доменах всех групп специфичности, окрашена в черный цвет. Позиции, консервативные в доменах группы специфичности scrr, содержащие остатки, консервативные в данной позиции лишь в доменах группы специфичности scrr (то есть позиции, которые могут быть консервативны в доменах разных групп специфичности, но определенная буква консервативна в этой позиции только в доменах группы специфичности scrr), окрашены темно-зеленым цветом.
      Позиции, консервативные в доменах хотя бы 6 групп специфичности, отмечены золотой буквой на верху колонки.
      К сожалению, не нашлось позиций, консервативных в пределах каждой группы, но в которых во всех разных группах находятся разные остатки. В единственной позиции, консервативной во всех группах, почти во всех группах могут стоять одни и те же остатки; впрочем, домены группы специфичности laci имеют в этой позиции только лейцин, а домены группы специфичности ptxs - только валин; хоть это и близкие по свойствам аминокислотные остатки, можно считать, что у этих двух разных групп в этой позиции стоят разные остатки. Очень часто наблюдаются позиции, консервативные в пределах нескольких групп, в которых в разных группах могут находиться разные остатки. Такие позиции отмечены вишневой буквой во второй строчке колонки.
      Всего в выравнивании нашлось 17 позиций, консервативных в доменах группы scrr и содержащих остатки, консервативные в этих позициях в доменах лишь этой группы. Это позиции выравнивания с номерами 52, 58, 73, 83, 90, 107, 108, 160, 169, 210, 212, 225, 253, 257, 262, 263 и 265 (они отмечены темно-зеленым цветом).
      Кроме того, получено выравнивание, наглядно иллюстрирующее различия между группами, сохраненное в файле effectbind1.htm. Точками на нем отмечены остатки, встречающиеся чаще других в данной позиции в разных группах, а буквами - остатки, отличные от зашифрованных точками.

      То же проделаем для ДНК-связывающих доменов.
      Раскрашенное выравнивание ДНК-связывающих доменов сохранено в файле gnabind.htm. Выравнивание сохранено в файле gnabind.msf. Обозначения и окрашивания те же, что и для выравнивания эффекторсвязывающих доменов.
      В этом выравнивании больше позиций, консервативных в доменах всех групп функциональности. Имеется 4 позиции, не только консервативные во всех доменах, но и содержащие одинаковые или близкие остатки (позиции окрашены черным). Первая из них, например, полностью состоит из остатков серина. В остальных трех позициях могут стоять разные остатки, но близкие друг другу и почти всегда одинаковые для всех групп специфичности. Исключение составляет лишь третья позиция (63-я позиция выравнивания): в ней домены двух разных групп содержат разные остатки: frur - только валин, а gntr - только изолейцин.
      Есть всего четыре позиции, консервативные в доменах группы scrr и содержащие остатки, консервативные в данной позиции в доменах лишь этой группы. Это позиции выравнивания под номерами 25, 49, 69 и 86 (окрашены темно-зеленым). Также было получено выравнивание, иллюстрирующее различия между группами. Оно было сохранено в файле gnabind1.htm.
    3. Создание лого-изображений полного выравнивания заданных доменов (эффекторсвязывающего и ДНК-связывающего) и выравнивания доменов заданной группы специфичности (scrr)

      Лого-изображение полного выравнивания эффекторсвязывающих доменов сохранено в файлах effectlogo.gif и effectlogo.png. Лого-изображение выравнивания эффекторсвязывающих доменов белков группы специфичности scrr сохранено в файле effectscrlogo.gif.
      Лого-изображение полного выравнивания эффекторсвязывающих доменов иллюстрирует консервативность разных остатков на разных позициях в эффекторсвязывающих доменах всего семейства. Как видно, в большинстве случаев "большие" буквы на лого совпадают с выделенными золотым колонками в полном выравнивании эффекторсвязывающих доменов. Лого-изображение выравнивания доменов группы специфичности scrr иллюстрирует консервативность остатков в эффекторсвязывающих доменах исключительно данной группы специфичности.

      Лого-изображение полного выравнивания ДНК-связывающих доменов сохранено в файле dnalogo.gif. Лого-изображение выравнивания ДНК-связывающих доменов белков группы специфичности scrr сохранено в файле dnascrrlogo.gif. Как и в случае с лого-изображениями эффекторсвязывающих доменов, лого-изображение полного выравнивания ДНК-связывающих доменов иллюстрирует консервативность разных остатков на разных позициях в ДНК-связывающих доменах всего семейства, а лого-изображение выравнивания доменов группы специфичности scrr иллюстрирует консервативность остатков в ДНК-связывающих доменах исключительно данной группы специфичности.
  3. Третий этап: создание профиля и поиск белка с заданной специфичностью (scrr) в заданном протеоме (Xanthomonas campestris pv. campestris (strain B100))

    1. Создание профиля для доменов белков заданной группы специфичности (scrr)

      Добавим веса в выравнивания доменов белков группы специфичности scrr dnascrrbind.fasta и effectscrr.fasta. Для этого воспользуемся программой pfw из пакета PFTOOLs:
      pfw -m dnascrrbind.fasta > dnascrrbind.weighted.fasta
      На выходе получаем выравнивания с весами dnascrrbind.weighted.fasta и effectscrrbind.weighted.fasta. Подадим эти выравнивания на вход программе pfmake для построения профиля:
      pfmake -m dnascrrbind.weighted.fasta /usr/share/pftools23/blosum45.cmp > dnaprofile.prf
      На выходе получаем файлы с профилями dnaprofile.prf и effectprofile.prf. Подадим профили программе autoscale для нормировки относительно случайной базы:
      autoscale -m dnaprofile.prf > dnaprofile.scaled.prf
      На выходе получаем отнормированные профили dnaprofile.scaled.prf и effectprofile.scaled.prf.
    2. Поиск белков заданной группы специфичности (scrr) в заданном протеоме (Xanthomonas campestris pv. campestris (strain B100))

      Вначале добудем файл с протеомом Xanthomonas campestris pv. campestris (strain B100). Для этого обратимся к странице БД UniProt. Сохраним последовательности всех белков бактерии в файле Xanthomonas_campestris.fasta.
      Затем проведем в протеоме поиск белков заданной группы специфичности (scrr). Для этого воспользуемся программой pfsearch. Значение порога возьмем равным 10.0:
      pfsearch -C 10.0 -f dnaprofile.scaled.prf Xanthomonas_campestris.fasta > dnascrrxant.search
      pfsearch -C 10.0 -f effectprofile.scaled.prf Xanthomonas_campestris.fasta > effectscrrxant.search
      На выходе получаем файлы dnascrrxant.search и effectscrrxant.search со списком найденных возможных гомологов. В случае ДНК-связывающих доменов их нашлось 9 штук, в случае эффекторсвязывающих - 6. При поиске белков программой pfsearch со значением порога, равным 30.0, на нашлось ни одного возможного гомолога ни для какого домена. Поиск со значением порога, равным 5.0, дал слишком много возможных гомологов для обоих доменов. Поэтому лучше анализировать результат программы с порогом 10.0. Важно отметить, что все шесть находок эффекторсвязывающих доменов, удовлетворяющих профилю, входят в число девяти находок ДНК-связывающих доменов. Возможно, среди них есть искомый белок со специфичностью scrr.

      Для определения возможного кандидата на эту роль построим выравнивания найденных последовательностей под профиль представительского выравнивания доменов группы специфичности scrr. Для этого воспользуемся программой ClustalW2.
      Начнем с находок ДНК-связывающих доменов. Результат работы программы ClustalW2 был сохранен в файле dnaresult.aln и импортирован в GeneDoc. Выравнивание ДНК-связывающих доменов было сохранено в файлах dnaresult.msf и dnaresult.htm. Оно выглядит следующим образом:

      Зеленым отмечены названия представительских последовательностей и их консервативные позиции. Черным и серым отмечены позиции, консервативные во всем выравнивании или внутри большой группы последовательностей.
      Чтобы ответить на вопрос, могут ли найденные белки содержать ДНК-связывающий домен группы специфичности scrr, обратимся к PDB и выясним, какие остатки важны для связывания домена с ДНК. К сожалению, в БД PDB не нашлось ни одной 3D-структуры белка группы специфичности scrr. Для получения приблизительных данных об аминокислотных остатках, важных для связывания с ДНК, обратимся к 3D-структуре белка из другой группы специфичности PURR_ECOLI (1BDH), считая что разные группы специфичности связываются с ДНК схожим образом одними и теми же остатками. С помощью программы RasMol были определены остатки, образующие водородные связи и гидрофобные взаимодействия с полярными и гидрофобными атомами ДНК. Критерием водородной связи считалось расстояние в 3,5 ангстрем, критерием гидрофобного взаимодействия - расстояние в 4,5 ангстрем. Таким образом, были обнаружены остатки Val13, Ser14, Thr16, Thr17, Arg26, Phe27, Ala29, Thr32, Leu54, Lys55.
      Для наглядности в выравнивании ДНК-связывающих доменов золотым цветом были отмечены колонки, соответствующие этим важным для связывания остаткам. Кроме того, этим цветом были отмечены остатки, консервативные для всех групп специфичности семейства LacI (см. предыдущий пункт). Темно-красным были отмечены остатки, консервативные в данной позиции лишь в группе специфичности scrr (25, 49, 69 и 86):

      Выравнивание сохранено в файле dnaresult1.htm. Из него видно, что 4 остатка, важных для связывания с ДНК в PURR_ECOLI, не являются таковыми для группы специфичности scrr (т.к. они не консервативны). Это остатки Thr16, Arg26, Ala29 и Lys55 (в выравнивании их легко заметить, так как эти колонки содержат лишь одну раскрашенную позицию (раскрашенную золотым)). Рассматривая теперь последовательности доменов найденных белков, видно, что почти все важные для связывания с ДНК остатки консервативны во всех последовательностях. Исключение составляют всего три остатка. Поэтому вывод был основан на совпадении остатков найденных последовательностей с этими остатками и на совпадении остатков, покрашенных темно-красным цветом. На основании выравнивания ДНК-связывающих доменов потенциальными белками группы специфичности scrr могут быть BORLC9_XANCB, BORRG8_XANCB, BORNZ9_XANCB и BORVQ8_XANCB. В последовательностях этих белков оказалось достаточно много остатков, совпадающих с важными консервативными остатками белков группы scrr. Однако не было обнаружено ни одной последовательности, содержащей все консервативные значимые остатки группы специфичности scrr. Из выбранных белков только один был найден по профилю эффекторсвязывающих доменов. Это белок BORVQ8_XANCB.

      Теперь изучим выравнивание эффекторсвязывающих доменов. Результат работы программы ClustalW2 был сохранен в файле effectresult.aln и импортирован в GeneDoc. Выравнивание ДНК-связывающих доменов было сохранено в файлах effectresult.msf и effectresult.htm.

      3D-структуры эффекторсвязывающего домена какого-либо белка группы специфичности scrr найти не удалось. Поэтому внимание было сконцентрировано, в основном, на остатках, консервативных в данных позициях только для группы специфичности scrr (см. предыдущий пункт). Это позиции 52, 58, 73, 83, 90, 107, 108, 160, 169, 210, 212, 225, 253, 257, 262, 263 и 265. Отметим их темно-красным цветом в выравнивании эффекторсвязывающих доменов:

      Выравнивание сохранено в файле effectresult1.htm. К сожалению, ни одна найденная по профилю последовательность не содержала хотя бы небольшую часть остатков, консервативных внутри белков группы специфичности scrr и отличающих их от других групп специфичности. Даже белок B0RVQ8, выбранный из выравнивания ДНК-связывающих доменов, не может быть рассмотрен как потенциальный представитель группы специфичности scrr.


  4. Результат

    Не было найдено ни одного потенциального представителя группы специфичности scrr семейства LacI из протеома Xanthomonas campestris pv. campestris (strain B100). Выравнивание ДНК-связывающих доменов позволило рассмотреть четыре последовательности в качестве искомых белков, но выравнивание эффекторсвязывающих доменов устранило эту возможность. Этот результат вполне ожидаем: ДНК-связывающие домены разных групп специфичности не сильно отличаются друг от друга и позволяют выбрать большее количество белков, чем эффекторсвязывающие домены, сильно отличающиеся в разных группах специфичности.

Назад