Анализ протеома Tetragenococcus koreensis

Поиск протеома

В базе данных NCBI Datasets Genome представлена сборка генома Tetragenococcus koreensis, идентификатор сборки RefSeq и ссылка на нее: GCF_003795145.1.
Там же указан идентификатор сборки INSDC: GCA_003795145.1
При использовании этого идентификатора Uniprot Proteomes выдает один протеом с идентификатором UP000271545.
(Запрос: выбираем базу данных Uniprot Proteomes и в поисковую строку вводим идентификатор INSDC - GCA_003795145.1).
Этот протеом оказался избыточен (статус: Redundant proteome), и исключен в пользу
UP000886597.

Поиск рефересного протеома

Запрос в базе данных Uniprot Proteomes taxonomy_id:290335 (поиск по TaxID предложенному в записи найденного протеома, это идентификатор Tetragenococcus koreensis) выдал 7 избыточных, 28 удаленных и 1 обычный протеом, в пользу которого и был исключен найденный в первом пункте протеом.

Запрос в той же базе данных, но уже по роду Tetragenococcus (запрос: taxonomy_id:51668) выдал 9 обычных, 59 избыточных, 63 удаленных и 2 рефересных протеомов.

Если для двух найденных рефересных протеомов посмотреть на меру качества BUSCO, то окажется, что протеом Tetragenococcus halophilus (ID: UP000236214) имеет лучшие характеристики, нежели протеом Tetragenococcus muriaticus (ID: UP000029381).
А именно C:98.8% (S:98.8% D:0%) F:0.5% M:0.7% против C:84.3% (S:84.3% D:0%) F:11.4% M:4.2%.
Следовательно, рефересным будем считать протеом Tetragenococcus halophilus (ID: UP000236214).

Чтобы получить файл со всеми белками, я использовал команду:

curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000236214)' > UP000236214.swiss.gz

Оценка количества ферментов в протеоме

Всего в протеоме 2260 белков. Попробуем посчитать, сколько из них являются ферментами.

Для оценки количества ферментов используем два подхода: первый заключается в поисковых запросах на UniProtKB, а второй в анализе сжатого файла с записями белков в формате swiss.

Запросы на UniProtKB

Первый запрос: (proteome:UP000236214) AND (cc_catalytic_activity:*). Поиск белков из анализируемого протеома, в записи которых есть указание на наличие у них любой каталитической активности. Результатом стала 431 запись.
Второй запрос: (proteome:UP000236214) AND (EC:*). Здесь же поиск белков из анализируемого протеома, в записи которых есть хотя бы один код EC, указывающего на класс катализируемой реакции. В результате 490 записи.

Разницу в количестве записей в результате этих одинаковых по смыслу запросов можно объяснить ошибками в автоматической аннотации.

Оценка консольными средствами

Оценим количество ферментов "грубыми способами". Следующие конвейеры просто находят сколько раз встретилось упомниание в СС про каталитическую активность и сколько кодов ЕС есть в файле:

Это не точная оценка сверху уже показывает, что указание на разные каталитические активности в одной записи встречаются чаще, чем несколько кодов ЕС (если сравнить с числами, полученные запросами в UniProtKB, разница между ЕС всего 12, а CATALYTIC ACTIVITY - 68).

Следующий конвейер лишь нужен для нижней оценки количества ферментов и показывает количество записей, в которых код ЕС идет непосредственно следующей строчкой за RecName.

Следующий конвейер показывает количество записей в которых есть хотя бы одно CATALYTIC ACTIVITY, и если блоки комментариев для CATALYTIC ACTIVITY идут не подряд для разных записей, то мы получим количество аннотированных ферментов. И это количество совпало с числом записей в перовом запросе на UniProtKB.

Итак, получается, что количество ферментов примерно полтысячи из 2260 белков, что составляет 20% от всех белков. Точное количество нельзя назвать из-за разных результатов при анализе разных указателей на ферментативную активность. Например, грубая вепрхняя оценка показала, что код ЕС в одной записи редко попадается дважды, а CATALYTIC ACTIVITY много раз, и, возможно, наличие этого блока комментариев зависит от качества аннотации.

Поиск сайтов связывания с антителами в гидрофобных белках

Tetragenococcus halophilus не является патогенной бактерией, но, так как она является частью микробиоты пищевого продукта (кимчи), может быть полезным знать, какие сайты связывания с антителами есть в мембранных белках Tetragenococcus halophilus.

В UniProtKB есть ключевые слова для поиска мембранных белков (запрос (taxonomy_id:51669) AND (keyword:KW-0472) для мембранных белков Tetragenococcus halophilus выдал 1625 результат), но из-за автоматической аннотации могут быть ошибки, и было бы интересно посмотреть на сайты к антителам для внутримембранных белков. Это можно сделать, предположив, что самые гидрофобные белки прокариот являются мембранными, а саму гидрофобность можно считать пропорциональной доле гидрофобных аминокислотных остатков.

Следующая таблица показывает наличие сайтов связывания с антителами для 10 самых гидрофобных белков.

Сайты связывания антител 10 самых гидрофобных белков Tetragenococcus halophilus
Protein ID Доля гидрофобных остатков (гидрофобность) Есть ли в аннотации, что белок мембранный Количество сайтов связывания с антителами
A0A2H6D2P5_TETHA 82.500% да 3
A0A2H6CTR9_TETHA 80.000% да 4
A0A2H6CWP6_TETHA 78.333% нет 3
A0A2H6CBU5_TETHA 78.261% да 3
A0A2H6CMH6_TETHA 76.423% да 4
A0A2H6CQ36_TETHA 76.190% да 2
A0A2H6CAC6_TETHA 76.000% да 3
A0A2H6DJG0_TETHA 75.701% нет 4
A0A2H6CVV5_TETHA 75.576% да 7
A0A2H6CX45_TETHA 75.419% да 7

Доли гидрофобных остатков в самых гидрофобных белках были получены с помощью конвейера №1.

Использовалась команда pepstats, считающая несколько характеристик белка (вес, средний вес остатка, изоэлектрическую точку и т.д.), в том числе долю неполярных аминокислот.

Идентификаторы белков были получены конвейером №2.

Далее каждый идентификатор вручную был введен в поисковую строку UniprotKB, и далее я искал поле KW, есть ли там указания на то, что белок мембранный.

С помощью конвейера №3 были получены количества предсказанных сайтов связывания с антителами.

Использовалась команда antigeniс, предсказывающая антигенные сайты белков.


У двух белков не было в аннотации данных, что они мембранные, что может быть ошибкой автоматической аннотации.

Наверное, самый полезный результат, что последний белок из таблицы является переносчикам биотина, важным белком метаболизма, и имеет 7 предсказанных сайтов связывния с антителами. Это можно использовать для синтеза антипептидных антител, специфично реагирующих с исходным и важным для бактерии белком.