Работа с протеомом Silvanigrella aquatica
Поиск протеома, соответствующего геномной сборке
В предыдущем семестре для работы над мини-обзором, посвященным бактерии Silvanigrella aquatica, я использовала геномную сборку NCBI RefSeq GCF_001907975.1 (страница данной сборки в базе NCBI Datasets Genome).
Идентификаторы последней версии сборки:
- RefSeq: GCF_001907975.1
- INSDC (GenBank): GCA_001907975.2
Для выполнения данного практикума далее требовалось найти протеом, соответствующий указанной геномной сборке. С этой целью был выполнен поисковый запрос по базе UniProt Proteomes:
Запрос вернул протеом UP000184731, имеющий статус референсного (reference proteome).
Поиск и скачивание референсного протеома
Поскольку в предыдущем пункте найденный мною протеом UP000184731 уже имел статус референсного, требовалось подтвердить, что он действительно является таковым для вида Silvanigrella aquatica. Для этого необходимо было вновь обратиться к поиску по базе UniProt Proteomes, но на этот раз с использованием TaxID и фильтра по статусу протеома:
Результат подтвердил, что протеом UP000184731 действительно является референсным для данного вида. В связи с чем все дальнейшие задания выполнялись с его использованием.
Для скачивания белковых записей, принадлежащих данному протеому была выполнена команда:
Оценка числа белков, содержащих альфа-спирали
Целью данного пункта было определение числа белковых записей в скачанном протеоме, содержащих некоторые структурные особенности — альфа-спирали и трансмембранные участки. Оба признака находятся в поле FT (Feature table) записей формата swiss. Для подсчёта были использованы следующие конвейеры bash:
- Записи, содержащие трансмембранные участки (ключ TRANSMEM)
- Записи, содержащие альфа-спирали (ключ HELIX)
- Общее число белковых записей в протеоме
zcat UP000184731.swiss.gz | grep -e '^//' -e '^FT TRANSMEM' | grep -A1 'TRANSMEM' | grep '//$' | wc -l
Результат: 590
zcat UP000184731.swiss.gz | grep -e '^//' -e '^FT HELIX' | grep -A1 'HELIX' | grep '//$' | wc -l
Результат: 0
zcat UP000184731.swiss.gz | grep '^//' | wc -l
Результат: 2865
Из полученных результатов видно, что 590 белков содержат трансмембранные регионы. Это составляет примерно 20% от всех белковых записей в протеоме. Такую оценку можно назвать удачной, поскольку исследования указывают именно на такую долю трансмембранных белков у бактерий [1].
Что касается альфа-спиралей, полученный результат (0) далёк от реальности. Однако это можно объяснить особенностями получения этих двух ключей аннотации. Ключ TRANSMEM аннотируется на основе компьютерных предсказательных алгоритмов, применённых к аминокислотным последовательностям [2], тогда как ключ HELIX — это аннотация вторичной структуры, которая берётся из экспериментально определённых трёхмерных структур [3].
На сегодняшний день ни для одного белка Silvanigrella aquatica не определена экспериментальная пространственная структура с достаточным разрешением, чтобы её можно было использовать для аннотации в UniProtKB, что вполне естественно для немодельного прокариотического организма. Этим и объясняется полное отсутствие ключей HELIX в записях данного протеома
Оценка количества ферментов в протеоме
Далее, используя поисковые запросы в базе UniProtKB, нужно было оценить количество белков в протеоме UP000184731, обладающих ферментативной активностью.
Для этого были выполнены несколько запросов по разным полям:
- Поиск по наличию EC-кода:
- Поиск по наличию суффикса «ase» в названии белка:
- Поиск по наличию блока 'CATALYTIC ACTIVITY' в поле CC:
Результат: 502
Результат: 1 161
Результат: 446
Анализируя полученные данные, можно, во-первых, заметить сильно выпадающий результат (1 161). Поскольку он показывает число белков, содержащих в названии суффикс «ase», что изначально является крайне неспецифичным признаком, при этом неспособным учитывать все ферменты, данному значению нельзя доверять.
Два других результата (502 и 446) оказываются намного ближе друг к другу и, вероятно, ближе к реальности, однако полностью доверять им тоже не стоит. Оценка по полю cc_catalytic_activity скорее всего учитывает не все ферменты, так как этот блок появляется в основном у белков с подтверждённой или хорошо предсказанной каталитической активностью. Оценка по наличию EC-кодов, напротив, может быть более широкой, но тоже не гарантирует полноты, поскольку некоторые ферменты могут не иметь присвоенного EC-кода.
Список литературы
- Kahsay R. Y., Gao G., Liao L. An improved hidden Markov model for transmembrane protein detection and topology prediction and its applications to complete genomes //Bioinformatics. – 2005. – Т. 21. – №. 9. – С. 1853-1858.
- Möller S., Croning M. D. R., Apweiler R. Evaluation of methods for the prediction of membrane spanning regions //Bioinformatics. – 2001. – Т. 17. – №. 7. – С. 646-653.
- UniProt Consortium. The universal protein resource (UniProt) //Nucleic acids research. – 2007. – Т. 36. – №. suppl_1. – С. D190-D195.