ПРАКТИКУМ 8

Изучаемый протеом

  • Идентификатор сборки RefSeq: GCF_000014765.1
  • NCBI Datasets Genome: GCF_000014765.1
  • идентификатор сборки INSDC: GCA_000014765.1
  • UniProt Proteomes: у приведенной выше геномной сборки протеом с ID UP000001966, данный протеом имеет статус 'Other proteome' (второстепенный или дополнительный протеом)

Запрос текстом:(genome_assembly:GCA_000014765.1)

К сожалению референсный протеом для выбранного мною вида Nitrosomonas eutropha отсутвовал, поэтому был применен расширенный поиск по базе Proteomes. Были применены критерии:

  1. Taxonomy [OC]: род Nitrosomonas (914)
  2. Proteom Type: Reference
Запрос текстом: (taxonomy_id:914) AND (proteome_type:1)
Всего таких протеомов оказалось 14 штук, мной был выбран хорошо описанный протеом с ID UP000001416, соответсвующий бактерии Nitrosomonas europaea. Еще одной причиной выбора именно этого референсного протеома стала информация, полученная со страницы изначального протеома. В пункте Pan proteome сказано, что протеом Nitrosomonas eutropha является частью протеома Nitrosomonas europaea
Команда для скачивания:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001416)' -O UP000001416.swiss.gz 

Поиск белков с ферментативной активностью

1. С помощью расширенного поиска на сайте, выбрав пункт Enzyme classification: * получили 725 результата
Запрос текстом:(proteome:UP000001416) AND (ec:*)
2. Помимо этого я решил выбрать с помощью расширенного поиска все белки с active site, их нашлось 216, возможно результат получился меньше, так как поиск по всем ферментам выдает еще и записи отдельных субъединиц, а далеко не все субъединицы ферментов содержат активный сайт. С другой стороны существуют ферменты, где активный сайт слогается из нескольких субъединиц, поэтому и первый и второй вариант дают расхождения
Запрос текстом:(proteome:UP000001416) AND (ft_act_site:*)
3. Еще один способ оценки количества ферментов в протеоме был основан на наличие в записи белка в строке СС фразы CATALYTIC ACTIVITY. Для оценки использовался bash
Скрипт:

 zcat UP000001416.swiss.gz | grep -e '^ID' -e '^CC' | grep -e '^ID' -e 'ACTIVITY:$' | cut -c1 |  tr -d '\n' | grep -o 'IC' | wc -l 

С помощью этого конвеера нашлось 555 записей с каталитической активностью. Что попадает в интервал двух предыдущих поисков и основываясь на выше приведенных рассуждениях, возможно, дает более релевантные данные (в идеале конечно еще учитывать в СС пункт SUBUNIT и для субъединиц одного фремента считать CATALYTIC ACTIVITY один раз, но я пока не придумал скрипт). Кстати, если в расширенном поиске выбрать Catalytic ativity получаются идентичные результаты, вероятно, он тоже операется на строку CC

Продолжение анализа протеома

В своем миниобзоре по бактерии Nitrosomonas eutropha C91 я упоминал ее устойчивость к тяжелым металлам, что предположительно позволяет использовать эту бактерию в биоремидации. В данном практикуме я решил подробнее изучить данный вопроc. Основываясь на протеоме понять, к каким металлам присутсвует устойчивость и какие белки отвечают за это. Выбор белковых записей основывается на наличие в поле KW фраз 'Metal-binding' и 'resistance'. Существуют разные способы противодействия токсичности тяжелых металлов, в частности связывание с ними определенных белков и нейтрализация их токсичности, так что фразы приведенные выше должны встречаться. Скрипт написан на Python и лежит в файле cod.py, вывод подается в два файла: filtered.txt и ids.txt

#! /usr/bin/env python

import gzip
input_file = "UP000001416.swiss.gz"
output_file = "filtered.txt"
id_file = "ids.txt"

with gzip.open("UP000001416.swiss.gz", "rt", encoding="utf-8") as file:
 content = []
 filtered = []
 name = []
 line = file.readline()
 while line:
     content.append(line)
     line = file.readline()
 part = "".join(content).split("//\n")
 for entry in part:
    lines = entry.splitlines()
    kw_lines = [line for line in lines if line.startswith("KW")]
    kw_text = " ".join(kw_lines).lower()
    if "metal-binding" in kw_text and "resistance" in kw_text:
        filtered.append(entry.strip() + "\n//")
        for line in lines:
            if line.startswith("ID"):
                parts = line.split()
                if len(parts) > 1:
                    name.append(parts[1])

with open(output_file, "w", encoding="utf-8") as file:
    file.write("\n".join(filtered))
with open(id_file, "w", encoding="utf-8") as file:
    file.write("\n".join(name))
Из полученных записей можно узнать, что бактерия имеет белки Mer оперона. Данные белки способны связывать Hg2+ [1] и восcтанавливать до менее токсичного Hg0, что ,возможно, найдет применение в биоремидации.

Литература:

[1] Freedman Z, Zhu C, Barkay T. Mercury resistance and mercuric reductase activities and expression among chemotrophic thermophilic Aquificae. Appl Environ Microbiol. 2012 Sep;78(18):6568-75. doi: 10.1128/AEM.01060-12. Epub 2012 Jul 6. PMID: 22773655; PMCID: PMC3426723.