UniProt Proteomes. EMBOSS

ПОИСК ПРОТЕОМА, СООТВЕТСТВУЮЩЕГО ГЕНОМНОЙ СБОРКЕ

В прошлом семестре работа проводилась на основе геномной сборки GCF_000008765.1 (ссылка на страницу сборки в базе NCBI Datasets Genome). Идентификатор последней версии сборки в INSDC - GCF_000008765.1, тогда как в RefSeq он имеет обозначение GCA_000008765.1. Поисковым запросом по UniProt Proteomes, который выдал протеом, был (genome_assembly:GCA_000008765.1). Идентификатором протеома оказался UP000000814, статус протеома - референсный протеом (Reference proteome).

ПОИСК И СКАЧИВАНИЕ РЕФЕРЕНСНОГО ПРОТЕОМА

Протеом, соответствующий геномной сборке C. acetobutylicum, оказался референсным, поэтому поиск референсных протеомов из того же вида не производился. Для скачивания белковых записей, принадлежащих протеому, была использована команда:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000000814' -O UP000000814.swiss.gz

ОЦЕНКА ЧИСЛА БЕЛКОВ, СОДЕРЖАЩИХ АЛЬФА-СПИРАЛИ

Для подсчета записей в файле протеома использовался скрипт на python, подсчитывающий отдельно количество записей, содержащих в поле FT ключ HELIX (альфа-спирали), а также ключ TRANSMEM (трансмембранные участки, которые чаще всего являются альфа-спиралями).

import gzip

file = gzip.open('UP000000814.swiss.gz', 'rt')

helix = 0
transmem = 0

with_helix = False
with_transmem = False

for line in file:
    if line.startswith('//'):
        if with_helix:
            helix += 1
        if with_transmem:
            transmem += 1
        with_helix = False
        with_transmem = False

    if line.startswith('FT   HELIX'):
        with_helix = True

    if line.startswith('FT   TRANSMEM'):
        with_transmem = True

file.close()

print('number of alpha helices', helix)
print('number of transmembrane domains', transmem)

В результате запуска программы на файле UP000000814.swiss.gz (с помощью команды python3 название_скрипта.py в папке с файлом протеома) было обнаружено 12 альфа-спиральных участков и 868 трансмембранных доменов. Противоречия в полученных значениях, очевидно, есть, так как они различаются практически на два порядка. Однако такие результаты можно объяснить тем, что трансмембранные домены в белковых записях часто получаются в результате биоинформатических предсказаний на основе аминокислотной последовательности, тогда как альфа-спирали, как элементы вторичной структуры, чаще аннотируются на основе экспериментальных данных (например, РСА или ЯМР). Ввиду того, что анализировался бактериальный протеом, логично предположить, что большинство белков в нем не имеют разрешенной 3D-структуры, так как мало исследуются, и наибольшую долю в аннотациях белков занимают биоинформатически предсказанные домены (обнаружение которых компьютерными методами, очевидно, гораздо проще и быстрее, нежели экспериментальный анализ, почему таких записей и больше).

ОЦЕНКА КОЛИЧЕСТВА ФЕРМЕНТОВ В ПРОТЕОМЕ

Для первичной оценки снизу был использован запрос (proteome:UP000000814) AND (ec:*) AND (cc_catalytic_activity:*) AND (protein_name:*ase) в Uniprot. Результатом стал вывод 619 записей, что, учитывая размер протеома в 3847 записей, является, скорее всего, заниженным значением. Очевидное ограничение на поиск записей накладывает условие окончания названия белка на -ase, так как, как и говорилось в задании, далеко не все названия ферментов подчиняются этому правилу. Поэтому было конструкция запроса была изменена таким образом, чтобы условия наличия каталитической активности вкупе с наличием в записи упоминания о классификации белка как фермента суммировались с условием об окончании названия. Новый запрос выглядел как ((proteome:UP000000814) AND (protein_name:*ase)) OR ((proteome:UP000000814) AND (ec:*) AND (cc_catalytic_activity:*)) и давал на выходе 1779 записей. Это значение более чем в три раза превышает предыдущее, и, скорее всего, ближе к истинному значению, так как вероятность того, что в протеоме найдется белок с окончанием названия на -ase, не являющийся ферментом, достаточно мала.

Для проверки также были использованы комбинации команд в запросе ((proteome:UP000000814) AND (protein_name:*ase) AND (cc_catalytic_activity:*)) OR ((proteome:UP000000814) AND (ec:*)) (725 результатов) и ((proteome:UP000000814) AND (protein_name:*ase) AND (ec:*)) OR ((proteome:UP000000814) AND (cc_catalytic_activity:*)) (720 результатов), а также запрос (proteome:UP000000814) AND (protein_name:*ase) (1756 результатов) и (proteome:UP000000814) AND (ec:*) AND (cc_catalytic_activity:*) (642 результата). Из полученных чисел записей можно сделать вывод о том, что для примерно двух третей ферментов (белков с названием на -ase) в UniProt не указана каталитическая активность и классификация по номенклатуре для ферментов, что логично, если учесть, что бактериальные протеомы, как правило, аннотированы слабо, а бактериальные белки зачастую в большинстве своем имеют низкий annotation score. Основываясь на всем вышеперечисленном, наиболее точная оценка количества ферментов в данном протеоме вероятнее всего ближе к полутора тысячам записей (с поправкой на нестрогость критерия окончания названия на -ase и низкую аннотированность протеома).