1. Поиск протеома, соответствующего геномной сборке
В прошлом семестре я работала с геномной сборкой бактерии Adhaeribacter radiodurans. В базе NCBI Datasets Genome эта сборка имеет следующую страницу:
Ссылка на страницу сборки:
https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_014075995.1/
Идентификаторы последней версии сборки:
- INSDC (GenBank): GCA_014075995.1
- RefSeq: GCF_014075995.1
Поисковый запрос по UniProt Proteomes:
assembly_id:GCA_014075995.1
Результат поиска:
- Идентификатор протеома: UP000514509
- Статус протеома: Reference proteome
Статус «Reference proteome» означает, что данный протеом выбран UniProt в качестве референсного для вида Adhaeribacter radiodurans. Такой протеом считается наиболее качественно аннотированным и рекомендуется для использования в биоинформатических анализах. Протеом не является избыточным (не redundant) и не был удалён.
2. Поиск и скачивание референсного протеома
Исходя из информации, полученной при выполнении задания 1, геномная сборка Adhaeribacter radiodurans (GCF_014075995.1) имеет статус Reference proteome, а соответствующий ей протеом имеет идентификатор UP000514509. Таким образом, данный протеом сам является референсным и наиболее близким к протеому моего организма. Дополнительный поиск референсных протеомов среди других таксонов не требуется.
Тем не менее, для полноты процедуры и в соответствии с методическими указаниями, был выполнен формальный поиск в базе UniProt Proteomes. Сначала определён TaxID организма в базе UniProt Taxonomy:
TaxID: 2659639
Поисковый запрос:
taxonomy_id:2659639 AND proteome_type:reference
Результат поиска подтвердил, что единственным референсным протеомом для данного TaxID является UP000514509 (Adhaeribacter radiodurans). Следовательно, в качестве наиболее близкого референсного протеома выбран именно этот протеом.
Скачивание протеома через REST API:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000514509' -O ~/term2/pr8/UP000514509.swiss.gz
Файл успешно скачан и размещён по пути ~/term2/pr8/UP000514509.swiss.gz.
3. Оценка числа белков, содержащих альфа-спирали
Для подсчёта количества белков с аннотациями HELIX и TRANSMEM был написан следующий скрипт на Python:
import gzip
file_path = "/home/students/y25/nmisureva/term2/pr8/UP000514509.swiss.gz"
helix = set()
transmem = set()
current = None
with gzip.open(file_path, "rt") as f:
for line in f:
if line.startswith("ID "):
current = line.split()[1]
if line.startswith("FT "):
if "HELIX" in line:
helix.add(current)
if "TRANSMEM" in line:
transmem.add(current)
print("HELIX:", len(helix))
print("TRANSMEM:", len(transmem))
print("HELIX и TRANSMEM:", len(helix & transmem))
Результат выполнения скрипта:
HELIX: 0 TRANSMEM: 940 HELIX и TRANSMEM: 0
Выводы:
Отсутствие белков с аннотацией HELIX объясняется тем, что для данного организма нет экспериментально определённых трёхмерных структур белков, необходимых для присвоения этого ключа. Наличие 940 белков с TRANSMEM связано с автоматическими предсказаниями трансмембранных доменов. Таким образом, аннотации в UniProtKB неполны, и отсутствие HELIX не означает отсутствия альфа-спиралей у белков протеома.
4. Оценка количества ферментов в протеоме
Для оценки числа ферментов в протеоме Adhaeribacter radiodurans (UP000514509) использованы два поисковых запроса.
Запрос 1 (по EC-номеру): proteome:UP000514509 AND ec:*
Результат: 787 белков. EC-номер является надёжным признаком ферментативной активности.
Запрос 2 (по CATALYTIC ACTIVITY): proteome:UP000514509 AND cc_catalytic_activity:*
Результат: 659 белков. Это поле описывает катализируемую реакцию.
Сравнение: Оценки различаются на 128 белков. Белки с EC-номером, но без описания каталитической активности, вероятно, аннотированы из старых или неполных источников.
Вывод: Наиболее достоверной оценкой является 787 ферментов (по EC-номеру), так как этот критерий более строгий и специфичный. Реальное количество ферментов может быть несколько выше, но не ниже этой цифры.
Отчёт по практикуму 8 | Мисюрёва Анастасия | 2026