В прошлом семестре я работал с геномной сборкой из базы данных RefSeq бактерии Streptococcus canis. Идентификатор сборки — GCF_010993845.2 — был получен при выполнении одного из практикумов в прошлом семестре. Так как в базе данных Uniprot Proteomes указывается идентификатор сборки INSDC, нужно было найти соответствующий идентификатор INSDC для данной сборки генома. Используя базу данных Datasets, я получил соответствующий идентификатор – GCA_010993845.2. Далее был составлен запрос в Uniprot Proteomes: (genome_assembly:GCA_010993845.2). К сожалению, поиск не выдал ни одного результата, даже при указании первой версии сборки.
Чтобы найти наиболее близкий к исследуемой бактерии протеом, сначала я попробовал поискать протеомы у вида Streptococcus canis. Запрос в базе данных Proteomes выглядел следующим образом: (taxonomy_id:1329), где 1329 — ID вида Streptococcus canis в NCBI Taxonomy. Поиск выдал 28 результатов, однако ни один из них не оказался референсным протеомом. Далее я пытался найти референсные протеомы у родительского таксона (Streptococcus) с помощью запроса: (taxonomy_id:1301). Поиск выдал 34192 результата. Для последующего анализа я выбрал протеом бактерии Streptococcus gordonii (штамм Challis / ATCC 35105 / BCRC 15272 / CH1 / DL1 / V288) с идентификатором UP000001131. Streptococcus canis и Streptococcus gordonii относятся к одному роду (Streptococcus); в определенных обстоятельствях являются патогенами, поражающими теплокровных животных; в норме могут входить в состав микробиоты ротовой полости. При этом Streptococcus canis чаще ассоциирован с домашними животными и может колонизировать кожу, слизистые оболочки и мочеполовые пути животных, в то время как Streptococcus gordonii является комменсалом полости рта человека, входит в состав зубного налета и участвует в формировании биопленок на зубах. Таким образом, эти два организма являются родственными, но занимают различные экологические ниши, что показалось мне интересным с точки зрения дальнейшего анализа.
Протеом был скачан с помощью команды: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001131)' -O UP000001131.swiss.gz в формате swiss.
Чтобы оценить количество ферментов, представленных в протеоме UP000001131, был составлен следующий запрос в UniprotKB: (proteome:UP000001131) AND (ec:*), где ec:* означает какой-либо класс ферментов. Поиск выдал 687 результатов.
Конвейер BASH для подсчета предполагаемого количества ферментов в исследуемом протеоме: zcat UP000001131.swiss.gz | grep -e '^//' -e '^CC' | grep -e 'CATALYTIC ACTIVITY' -e '^//' | grep -A1 --no-group-separator '^CC' | grep -B1 '^//' | grep -c '^CC'. Было найдено 434 результата.
Результаты, полученные при поиске с помощью Uniprot и BASH, отличаются, потому что, во-первых, каталитическая активность для разных записей может описываться разными терминами, во-вторых, записи из TrEMBL, будучи из автоматической базы данных, могут быть неполными или неточными, поэтому в поле для комментариев отсутствует явно представленная информация о каталитической активности. Например, в записи об аминотрансферазе (ID: A8AXR8_STRGC, AC: A8AXR8), пренадлежащей исследуемому протеому и которая явно является ферментом (EC:2.6.1.-), в поле комментариев не был указан раздел CATALYTIC ACTIVITY, что впоследствии привело к выводу меньшего количества ферментов, чем на самом деле представлено в протеоме.
Мне показалось интересным выполнить анализ распределения изоэлектрических точек белков исследуемого протеома в контексте физиологических особенностей организма и выявить связь между полученными данными и средой обитания микроорганизма. В связи с тем, что и Streptococcus gordonii, и Streptococcus canis обитают в ротовой полости теплокровных животных, моя изначальная гипотеза состояла в том, что в связи с преобладающим слабокислым pH ротовой полости большинство белков будут иметь изоэлектрическую точку (pI) меньше 7.
При изучении биоинформатического обепечения EMBOSS я заметил интересную команду pepstats, которая анализирует белковые последовательности и вычисляет их основные физико-химические свойства. Она может быть полезна для быстрой оценки характеристик белка, например, молекулярной массы, изоэлектрической точки, содержания аминокислот и других параметров. Данная команда может работать как с одной последовательностью, так и с множеством последовательносней.
1) Сначала было проанализировано количество белков, которые имеют pI в районе нейтрального значения pH. Для этого был использован конвейер: zcat UP000001131.swiss.gz | pepstats -filter | grep '^Isoelectric Point' | cut -d' ' -f4 | grep -c '^7.'. Было выведено 122 результата.
2) Затем я хотел посмотреть, какое количество белков имеют pI в районе сильно кислых значений pH (от 2 до 4). Используемый конвейер: zcat UP000001131.swiss.gz | pepstats -filter | grep '^Isoelectric Point' | cut -d' ' -f4 | grep -c '^[2-3].'. Белков с изоэлектрической точкой в данном диапазоне pH оказалось 26.
3) Число белков, имеющих pI в слабо кислых значениях pH (от 4 до 7), было найдено с помощью конвейера zcat UP000001131.swiss.gz | pepstats -filter | grep '^Isoelectric Point' | cut -d' ' -f4 | grep -c '^[4-6].'. Конвейер выдал 1304 результата.
4) С помощью конвейера zcat UP000001131.swiss.gz | pepstats -filter | grep '^Isoelectric Point' | cut -d' ' -f4 | grep -c '^[8-9].' было получено 385 белков, имеющих pI в слабощелочных значений pH (от 8 до 10).
5) Количество белков, имеющих pI в районе щелочных значений pH (от 10 до 14) было выяснено с помощью конвейера: zcat UP000001131.swiss.gz | pepstats -filter | grep '^Isoelectric Point' | cut -d' ' -f4 | grep -c '^1[0-4].'. Было выведено 213 белков.
Абсолютное большинство белков исследуемого протеома (1304 из 2050) имеют pI в диапазоне от 4 до 7, меньшее количество белков (598 из 2050) имеют pI в районе от 8 до 14, от 2 до 4 — 26 белков из 2050. Белков с pI в нейтральном значении pH оказалось 122 из 2050. Полученные данные подтверждают поставленную гипотезу о предполагаемом распределении изоэлектрических точек белков.
Такое распределение может быть связано с тем, что среда ротовой полости часто оказывается закисленной из-за продуктов метаболизма других бактерий или в связи с потребляемой пищей. Низкие значения pI белков позволяют сохранять их стабильность и функциональность при колебаниях pH, которые часто могут происходить в ротовой полости.