Практикум 8. UniProt, Proteomes, EMBOSS

Знаю, что разделение на пункты не обязательно, но мне так самому удобнее)

1. Поиск протеома

Поиск протеома проходил на NCBI Datasets, в качестве запроса иcпользовался ID сборки на INSDC, полученный из таблицы особенностей генома Thiomicrorhabdus aquaedulcis. Был получен единственный результат, ведущий ведущий на страницу геномной сборки.

ID сборки на RefSeqGCF_004001325.1
ID сборки на INSDCGCA_004001325.1
ID протеома на UniProt ProteomesUP000304864

В UniProt Proteomes отсутствует протеом моего штамма (поиск по запросу(genome_assembly:GCA_004001325.1) не дал результатов), поэтому я выполнил поиск по роду Thiomicrorhabdus запросом (taxonomy_id:2039723). Получено 13 результатов, среди которыхы 11 являются удаленными, 1 относится к другим категориям (Others) и есть единственный референсный протеом штамма Thiomicrorhabdus sediminis (G1) (ID штамма: 2580412), с которым я буду работать далее. Его ID сборки на INSDC: GCA_005885815.1

2. Поиск и скачивание референсного протеома

С помощью запроса (genome_assembly:GCA_005885815.1) в UniProt Proteomes был получен единственный протеом бактерии Thiomicrorhabdus sediminis (G1), содержащий 2078 белков, причем записи их всех были нерецензированными. Данные всех белков можно скачать по следующей ссылке: https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000304864%29%29. Архив в формате .gz был скачан с помощью команды
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000304864%29%29' -O UP000304864.swiss.gz

3. Оценка количества ферментов в протеоме

3.1. Оценка количества ферментов с помощью UniProtKB

Общее количество белков с ферментативной активностью определено поисковым запросом (proteome:UP000304864) AND (ec:*)). Получен 651 результат. Далее я решил посмотреть, сколько именно белков каждой классификации имеется в протеоме, что выполнил с помощью запросов вида (proteome:UP000304864) AND (ec:N.*), где вместо N стоял номер класса белков. Результаты поиска приведены в таблице 2. Сумма всех белков по классам составит 670, что больше числа, полученного предыдущим запросом (651). Это объясняется тем, что некоторые белки принадлежат сразу нескольким классам.

3.2. Оценка количества ферментов с помощью Bash

Определение количества ферментов производилось следующим образом: файл читался командой zcat, после чего отбирались только поля описания (DE), и среди них искалась информация о классе фермена. Команды имели вид
zcat UP000304864.swiss.gz | grep '^DE' | grep 'EC=N.' | wc -l
где N – класс фермента. Результаты (таблица 2) отличались от полученных с помощью UniProtKB в большую сторону. Это связано с тем, что некоторые белки относятся сразу к нескольким подклассам в пределах одного класса. Например, фермент A0A4P9K4S6_9GAMM относится одновременно к подклассам 6.3.4.16 и 6.3.5.5, что и приводит к ошибке.

3.3. Оценка количества ферментов с помощью Python

Для выполнения задачи была написана программа, разделяющего весь файл на блоки об отдельно взятых белках и ведущая поиск информации о классе фермена непосредственно в них. Всего найдено 647 ферментов, а отклонения поиска по классам оказались в меньшую сторону от поиска с помощью UniProtKB. Возможно, это связано с тем, что для моей программы необходимым условием определения фермента является наличие параметра EC в поле DE, в то время как в UniProtKB статус это может не быть необходимым условиям для присвоения белку статуса фермента.

Команда для запуска программы: echo ~/term2/pr8/UP000304864.swiss.gz | python enzyme_counter.py

Таблица 2. Ферменты разных классов, найденные для Thiomicrorhabdus sediminis (G1) различными способами
NКлассUniProtKBBashPython
1Оксидоредуктазы696969
2Трансферазы274281271
3Гидролазы118121117
4Лиазы646564
5Изомеразы585858
6Лигазы626361
7Транслоказы252525

4. Анализ протеома консольными средствами

Распределение длин белков (Back to the term 1)

Задача была выполнена с помощью использования программы на Python. На вход принимаются название файла архива, минимальная и максимальная длины и шаг. Программа была запущена так, чтобы результаты можно было сопоставить с гистограммой длин белков для Thiomicrorhabdus aquaedulcis, на геном которой в первом семестре был выполнен мини-обзор.
echo ~/term2/pr8/UP000304864.swiss.gz 40 1540 50 | python protein_lengths.py

Наиболее яркий вывод, который можно сделать при сравнении гистограмм – у Thiomicrorhabdus sediminis значительно меньше белков малых длин (до 240 АК), чем у Thiomicrorhabdus aquaedulcis. Можно предположить, что это связано с различиями условий обитания двух штаммов: в то время как T. aquaedulcis является пресноводной бактерией, T. sediminis была выделена из прибрежных осадков и оптимум концентрации солей для неё высокий (510 mM NaCl), что могло привести к потере "лишних" белков для минимизации энергозатрат.