В базе данных NCBI Datasets Genome представлена сборка генома Tetragenococcus koreensis, идентификатор сборки RefSeq и ссылка на нее:
GCF_003795145.1.
Там же указан идентификатор сборки INSDC: GCA_003795145.1
При использовании этого идентификатора Uniprot Proteomes выдает один протеом с идентификатором UP000271545.
(Запрос: выбираем базу данных Uniprot Proteomes и в поисковую строку вводим идентификатор INSDC - GCA_003795145.1).
Этот протеом оказался избыточен (статус: Redundant proteome), и исключен в пользу UP000886597.
Запрос в базе данных Uniprot Proteomes taxonomy_id:290335 (поиск по TaxID предложенному в записи найденного протеома, это идентификатор Tetragenococcus koreensis) выдал 7 избыточных, 28 удаленных и 1 обычный протеом, в пользу которого и был исключен найденный в первом пункте протеом.
Запрос в той же базе данных, но уже по роду Tetragenococcus (запрос: taxonomy_id:51668) выдал 9 обычных, 59 избыточных, 63 удаленных и 2 рефересных протеомов.
Если для двух найденных рефересных протеомов посмотреть на меру качества BUSCO, то окажется, что протеом Tetragenococcus halophilus (ID: UP000236214) имеет лучшие характеристики, нежели протеом
Tetragenococcus muriaticus (ID: UP000029381).
А именно C:98.8% (S:98.8% D:0%) F:0.5% M:0.7% против C:84.3% (S:84.3% D:0%) F:11.4% M:4.2%.
Следовательно, рефересным будем считать протеом Tetragenococcus halophilus (ID: UP000236214).
Чтобы получить файл со всеми белками, я использовал команду:
curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000236214)' > UP000236214.swiss.gz
Всего в протеоме 2260 белков. Попробуем посчитать, сколько из них являются ферментами.
Для оценки количества ферментов используем два подхода: первый заключается в поисковых запросах на UniProtKB, а второй в анализе сжатого файла с записями белков в формате swiss.
Первый запрос: (proteome:UP000236214) AND (cc_catalytic_activity:*). Поиск белков из анализируемого протеома,
в записи которых есть указание на наличие у них любой каталитической активности. Результатом стала 431 запись.
Второй запрос: (proteome:UP000236214) AND (EC:*). Здесь же поиск белков из анализируемого протеома, в записи которых есть хотя бы один код EC,
указывающего на класс катализируемой реакции. В результате 490 записи.
Разницу в количестве записей в результате этих одинаковых по смыслу запросов можно объяснить ошибками в автоматической аннотации.
Оценим количество ферментов "грубыми способами". Следующие конвейеры просто находят сколько раз встретилось упомниание в СС про каталитическую активность и сколько кодов ЕС есть в файле:
Это не точная оценка сверху уже показывает, что указание на разные каталитические активности в одной записи встречаются чаще, чем несколько кодов ЕС (если сравнить с числами, полученные запросами в UniProtKB, разница между ЕС всего 12, а CATALYTIC ACTIVITY - 68).
Следующий конвейер лишь нужен для нижней оценки количества ферментов и показывает количество записей, в которых код ЕС идет непосредственно следующей строчкой за RecName.
Следующий конвейер показывает количество записей в которых есть хотя бы одно CATALYTIC ACTIVITY, и если блоки комментариев для CATALYTIC ACTIVITY идут не подряд для разных записей, то мы получим количество аннотированных ферментов. И это количество совпало с числом записей в перовом запросе на UniProtKB.
Итак, получается, что количество ферментов примерно полтысячи из 2260 белков, что составляет 20% от всех белков. Точное количество нельзя назвать из-за разных результатов при анализе разных указателей на ферментативную активность. Например, грубая вепрхняя оценка показала, что код ЕС в одной записи редко попадается дважды, а CATALYTIC ACTIVITY много раз, и, возможно, наличие этого блока комментариев зависит от качества аннотации.
Tetragenococcus halophilus не является патогенной бактерией, но, так как она является частью микробиоты пищевого продукта (кимчи), может быть полезным знать, какие сайты связывания с антителами есть в мембранных белках Tetragenococcus halophilus.
В UniProtKB есть ключевые слова для поиска мембранных белков (запрос (taxonomy_id:51669) AND (keyword:KW-0472) для мембранных белков Tetragenococcus halophilus выдал 1625 результат), но из-за автоматической аннотации могут быть ошибки, и было бы интересно посмотреть на сайты к антителам для внутримембранных белков. Это можно сделать, предположив, что самые гидрофобные белки прокариот являются мембранными, а саму гидрофобность можно считать пропорциональной доле гидрофобных аминокислотных остатков.
Следующая таблица показывает наличие сайтов связывания с антителами для 10 самых гидрофобных белков.
Protein ID | Доля гидрофобных остатков (гидрофобность) | Есть ли в аннотации, что белок мембранный | Количество сайтов связывания с антителами |
---|---|---|---|
A0A2H6D2P5_TETHA | 82.500% | да | 3 |
A0A2H6CTR9_TETHA | 80.000% | да | 4 |
A0A2H6CWP6_TETHA | 78.333% | нет | 3 |
A0A2H6CBU5_TETHA | 78.261% | да | 3 |
A0A2H6CMH6_TETHA | 76.423% | да | 4 |
A0A2H6CQ36_TETHA | 76.190% | да | 2 |
A0A2H6CAC6_TETHA | 76.000% | да | 3 |
A0A2H6DJG0_TETHA | 75.701% | нет | 4 |
A0A2H6CVV5_TETHA | 75.576% | да | 7 |
A0A2H6CX45_TETHA | 75.419% | да | 7 |
Доли гидрофобных остатков в самых гидрофобных белках были получены с помощью конвейера №1.
Использовалась команда pepstats, считающая несколько характеристик белка (вес, средний вес остатка, изоэлектрическую точку и т.д.), в том числе долю неполярных аминокислот.
Идентификаторы белков были получены конвейером №2.
Далее каждый идентификатор вручную был введен в поисковую строку UniprotKB, и далее я искал поле KW, есть ли там указания на то, что белок мембранный.
С помощью конвейера №3 были получены количества предсказанных сайтов связывания с антителами.
Использовалась команда antigeniс, предсказывающая антигенные сайты белков.
У двух белков не было в аннотации данных, что они мембранные, что может быть ошибкой автоматической аннотации.
Наверное, самый полезный результат, что последний белок из таблицы является переносчикам биотина, важным белком метаболизма, и имеет 7 предсказанных сайтов связывния с антителами. Это можно использовать для синтеза антипептидных антител, специфично реагирующих с исходным и важным для бактерии белком.