1. Сборка генома и идентификаторы
Для работы была использована страница сборки в базе NCBI Datasets Genome: GCF_000025945.1.
- INSDC:
GCA_000025945.1 - RefSeq:
GCF_000025945.1 - Запрос по UniProt Proteomes:
(genome_assembly:*GCA_000025945.1) - Proteome ID:
UP000000602 - Статус: Reference proteome
Протеом является референсным и не относится к избыточным наборам.
2. Проверка выбранного протеома
При выполнении первого задания было установлено, что протеом с ID UP000000602 является референсным, поэтому его можно использовать для дальнейшего анализа.
Для проверки выбранного протеома и следования методическим рекомендациям был использован запрос
(taxonomy_id:177439) AND (proteome_type:*reference), который подтвердил, что рассматриваемый протеом является единственным референсным для организма Desulfotalea psychrophila LSv54.
Команда для скачивания белковых записей
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000000602' -O ~/term2/pr8/UP000000602.swiss.gz
3. Анализ аннотаций HELIX и TRANSMEM
Код
import gzip
file_path = "/home/students/y25/ezhe/term2/pr8/UP000000602.swiss.gz"
helix_set = set()
tm_set = set()
entry_id = None
with gzip.open(file_path, "rt") as f:
for row in f:
if row.startswith("ID "):
entry_id = row.split()[1]
if row.startswith("FT ") and entry_id:
if "HELIX" in row:
helix_set.add(entry_id)
if "TRANSMEM" in row:
tm_set.add(entry_id)
print("helix:", len(helix_set))
print("transmem:", len(tm_set))
print("both:", len(helix_set & tm_set))
Результаты
HELIX
TRANSMEM
В обработанном файле SwissProt 702 белка имеют аннотацию TRANSMEM, то есть содержат трансмембранный участок, но только один белок аннотирован как HELIX.
Пересечение множеств отсутствует: ни один белок не содержит одновременно обеих меток.
HELIX обычно требует экспериментально подтверждённой трёхмерной структуры, тогда как TRANSMEM часто основана на компьютерных предсказаниях. Поэтому полученные оценки отражают не столько биологическую реальность, сколько неполноту существующих аннотационных данных.
4. Оценка числа ферментов в протеоме
617 результатов
573 результата
Поиск по EC-номерам выявил 617 записей, а поиск по блоку CATALYTIC ACTIVITY — 573 записи. Разница составляет около 7%, что указывает на хорошее согласование между двумя подходами оценки.
Запрос по EC-номерам дал несколько больше результатов, что может объясняться наличием белков с присвоенным EC-номером, но без подробного описания каталитической активности в комментариях. Поэтому в качестве итоговой оценки числа ферментов в протеоме разумно принять значение 617.