ПРАКТИКУМ 8
Изучаемый протеом
- Идентификатор сборки RefSeq: GCF_000014765.1
- NCBI Datasets Genome: GCF_000014765.1
- идентификатор сборки INSDC: GCA_000014765.1
- UniProt Proteomes: у приведенной выше геномной сборки протеом с ID UP000001966, данный протеом имеет статус 'Other proteome' (второстепенный или дополнительный протеом)
Запрос текстом:(genome_assembly:GCA_000014765.1)
К сожалению референсный протеом для выбранного мною вида Nitrosomonas eutropha отсутвовал, поэтому был применен расширенный поиск по базе Proteomes. Были применены критерии:
- Taxonomy [OC]: род Nitrosomonas (914)
- Proteom Type: Reference
Всего таких протеомов оказалось 14 штук, мной был выбран хорошо описанный протеом с ID UP000001416, соответсвующий бактерии Nitrosomonas europaea. Еще одной причиной выбора именно этого референсного протеома стала информация, полученная со страницы изначального протеома. В пункте Pan proteome сказано, что протеом Nitrosomonas eutropha является частью протеома Nitrosomonas europaea
Команда для скачивания:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001416)' -O UP000001416.swiss.gz
Поиск белков с ферментативной активностью
1. С помощью расширенного поиска на сайте, выбрав пункт Enzyme classification: * получили 725 результата
Запрос текстом:(proteome:UP000001416) AND (ec:*)
2. Помимо этого я решил выбрать с помощью расширенного поиска все белки с active site, их нашлось 216, возможно результат получился меньше, так как поиск по всем ферментам выдает еще и записи отдельных субъединиц, а далеко не все субъединицы ферментов содержат активный сайт. С другой стороны существуют ферменты, где активный сайт слогается из нескольких субъединиц, поэтому и первый и второй вариант дают расхождения
Запрос текстом:(proteome:UP000001416) AND (ft_act_site:*)
3. Еще один способ оценки количества ферментов в протеоме был основан на наличие в записи белка в строке СС фразы CATALYTIC ACTIVITY. Для оценки использовался bash
Скрипт:
zcat UP000001416.swiss.gz | grep -e '^ID' -e '^CC' | grep -e '^ID' -e 'ACTIVITY:$' | cut -c1 | tr -d '\n' | grep -o 'IC' | wc -l
С помощью этого конвеера нашлось 555 записей с каталитической активностью. Что попадает в интервал двух предыдущих поисков и основываясь на выше приведенных рассуждениях, возможно, дает более релевантные данные (в идеале конечно еще учитывать в СС пункт SUBUNIT и для субъединиц одного фремента считать CATALYTIC ACTIVITY один раз, но я пока не придумал скрипт). Кстати, если в расширенном поиске выбрать Catalytic ativity получаются идентичные результаты, вероятно, он тоже операется на строку CC
Продолжение анализа протеома
В своем миниобзоре по бактерии Nitrosomonas eutropha C91 я упоминал ее устойчивость к тяжелым металлам, что
предположительно позволяет использовать эту бактерию в биоремидации.
В данном практикуме я решил подробнее изучить данный вопроc. Основываясь на протеоме понять, к каким металлам присутсвует устойчивость
и какие белки отвечают за это.
Выбор белковых записей основывается на наличие в поле KW фраз 'Metal-binding' и 'resistance'.
Существуют разные способы противодействия токсичности тяжелых металлов, в частности связывание с ними определенных белков и нейтрализация их токсичности, так что фразы приведенные выше должны встречаться.
Скрипт написан на Python и лежит в файле cod.py, вывод подается в два файла: filtered.txt и ids.txt
#! /usr/bin/env python import gzip input_file = "UP000001416.swiss.gz" output_file = "filtered.txt" id_file = "ids.txt" with gzip.open("UP000001416.swiss.gz", "rt", encoding="utf-8") as file: content = [] filtered = [] name = [] line = file.readline() while line: content.append(line) line = file.readline() part = "".join(content).split("//\n") for entry in part: lines = entry.splitlines() kw_lines = [line for line in lines if line.startswith("KW")] kw_text = " ".join(kw_lines).lower() if "metal-binding" in kw_text and "resistance" in kw_text: filtered.append(entry.strip() + "\n//") for line in lines: if line.startswith("ID"): parts = line.split() if len(parts) > 1: name.append(parts[1]) with open(output_file, "w", encoding="utf-8") as file: file.write("\n".join(filtered)) with open(id_file, "w", encoding="utf-8") as file: file.write("\n".join(name))Из полученных записей можно узнать, что бактерия имеет белки Mer оперона. Данные белки способны связывать Hg2+ [1] и восcтанавливать до менее токсичного Hg0, что ,возможно, найдет применение в биоремидации.
Литература:
[1] Freedman Z, Zhu C, Barkay T. Mercury resistance and mercuric reductase activities and expression among chemotrophic thermophilic Aquificae. Appl Environ Microbiol. 2012 Sep;78(18):6568-75. doi: 10.1128/AEM.01060-12. Epub 2012 Jul 6. PMID: 22773655; PMCID: PMC3426723.