1. Поиск протеома, соответствующего геномной сборке

Ссылка на страницу сборки в NCBI Datasets Genome:
GCF_000195755.1

Идентификаторы последней версии сборки:
INSDC: GCA_000195755.1
RefSeq: GCF_000195755.1

Поисковый запрос по UniProt Proteomes:
genome_assembly:GCA_000195755.1

Идентификатор протеома (UPID):
UP000002194

Статус протеома:
Reference proteomes

2. Поиск и скачивание референсного протеома

Для поиска референсного протеома был использован TaxID бактерии Desulfovibrio vulgaris (taxonomy_id:882). По данному запросу база UniProt Proteomes выдала единственный референсный протеом с идентификатором UP000002194, который соответствует тому же протеому, что был получен при поиске по сборке генома GCA_000195755.1 в задании 1.

Согласно базе Taxonomy, родительским таксоном для бактерии Desulfovibrio vulgaris является род Desulfovibrio (taxonomy_id:872). Поиск по данному таксону выдал 13 референсных протеомов. Из представленных в результате поиска референсных протеомов был выбран протеом UP000069241 (Desulfovibrio fairfieldensis) как наиболее близкий по качеству сборки (BUSCO 99,2%) и количеству белков.

Для скачивания белковых записей из UniProtKB была использована команда:


wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000069241' -O ~/term2/pr8/UP000069241.swiss.gz

3. Оценка числа белков, содержащих альфа-спирали

Для подсчёта числа альфа-спиралей во вторичных структурах белков (по наличию ключа "HELIX" в поле записи "FT") использовалась команда:


zcat ~/term2/pr8/UP000069241.swiss.gz | grep -E '^(//|FT   HELIX)' | grep -B1 '^FT   HELIX' | grep -c '^//'

Результат: 0 белков с альфа-спиралями

Для подсчёта числа трансмембранных участков (по наличию ключа "TRANSMEM" в поле записи "FT") использовалась команда:


zcat ~/term2/pr8/UP000069241.swiss.gz | grep -E '^(//|FT   TRANSMEM)' | grep -B1 '^FT   TRANSMEM' | grep -c '^//'

Результат: 592 белка с трансмембранными участками

Вывод: Результаты противоречивы с биологической точки зрения, ведь предполагалось, что число альфа-спиралей >= числу трансмембранных участков (трансмембранные участки часто (но не всегда) являются альфа-спиралями), но получено 0 HELIX и 592 TRANSMEM. Это противоречие, скорее всего, связано с разными подходами к аннотации, возможно, TRANSMEM можно предсказать автоматически по аминокислотной последовательности, а HELIX требует экспериментального подтверждения. Таким образом, нулевое количество HELIX не означает отсутствие альфа-спиралей в белках, а лишь отражает недостаток экспериментальных данных для их аннотации.

4. Оценка количества ферментов в протеоме

1) Для оценки количества ферментов был выполнен поиск по ключевому слову KW-0378, соответствующему гидролазам. Запрос (proteome:UP000069241) AND (keyword:KW-0378) выявил 202 белка.

2) Оценка количества ферментов также проводилась по наличию суффикса -ase в названии белка. Соответствующий запрос к базе UniProtKB: (protein_name:*ase) AND (proteome:UP000069241). Было получено 1370 записей.

Вывод: Поиск по ключевому слову KW-0378, соответствующему гидролазам, выявил 202 белка. Данная оценка является точной для одного класса ферментов, но не отражает общего количества ферментов в протеоме, так как гидролазы - лишь один из шести основных классов. Поиск по суффиксу -ase в названии белка выявил 1370 белков, он явно охватывает большее количество ферментов из разных классов, но его точность ниже, из-за того что не всегда белки, имеющие данный суффикс, являются ферментами, тем более ферментативная активность некоторых из них вовсе может быть не связана с катализом.