Анализ протеома Aliivibrio fischeri

Поиск протеома

В мини-обзоре генома бактерии Aliivibrio fischeri была использована геномная сборка с ID GCF_000011805.1 в базе данных RefSeq. На странице геномной сборки в базе NCBI Datasets Genome указан идентификатор сборки INSDC GCA_000011805.1. Далее этот идентификатор был использован для поиска протеома в базе данных UniProt Proteomes (genome_assembly:GCA_000011805.1). Найденный протеом имеет идентификатор UP000000537, а также статус "Reference proteome". Чтобы найти референсный протеом для данного вида бактерии нужно произвести следующий поисковой запрос (taxonomy_id:312309) AND (proteome_type:1), в результате которого находится протеом из предыдущего запроса.

Для скачивания этого протеома была написана следующая команда: curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000537)' > UP000000537.swiss.gz

Оценка числа белков, содержащих альфа-спирали

Чтобы посчитать количество белков с трансмембраннми доменами и альфа-спиралями был написан скрипт на Python (Листинг 1), который считает белки по наличию записи "HELIX" или "TRANSMEM" в поле "FT". Были получены такие результаты: Trensmembrane: 900, Helix: 5. Исходя из этой оценки, количество белков с трансмембранными структурами в 180 раз больше, чем количество белков с альфа-спиралями, что конечно же не соответсвтует действительности, потому что чаще всего в качестве трансмембранного элемента выступает альфа-спираль. Эта разница в количестве связана с тем, что чтобы доказать в UniProtKB, что участок трансмембранный достаточно использовать биоинформатические инструменты для оценки по последовательности, а чтобы доказать что участок принадлежит к определенной вторичной структуре необходимо наличие эксперементального подтверждения 3D-структуры. Так как разрешение структуры белков это достаточно трудоемкий и финансово затратный процесс, количество белков с подтвержденной альфа-спиральной структурой намного меньше, чем число трансмембранных участков.

Листинг 1. Код для подсчета количества белков с трансмембранными доменами и альфа-спиралями (См. файл со скриптом).

            import gzip

            proteome = gzip.open('UP000000537.swiss.gz', 'rt')
            trans = helix = 0
            t = h = 0
            for line in proteome:
                if line.startswith('//'):
                    if t:
                        trans += 1
                    if h:
                        helix += 1
                    t = 0
                    h = 0
                elif line.startswith('FT'):
                    if 'TRANSMEM' in line:
                        t = 1
                    if 'HELIX' in line:
                        h = 1

            proteome.close()
            print(f"Trensmembrane: {trans}, Helix: {helix}")    
        

Оценка количества ферментов в протеоме

Всего протеом содержит 3813 белков. С помощью поискового запроса в базе данных UniProtKB (proteome:UP000000537) AND (ec:*) было найдено 1280 белков с каталитической активностью. Также для оценки количества белков с ферментативной активностью может быть использован (proteome:UP000000537) AND (cc_function:enzyme), при этом получается 49 белков. Такая низкая оценка может быть связана с тем, что в поле CC не всегда указывается "enzyme", а возможно пишут "белок катализирует...". Еще можно использовать поиск по KW (ключевое слово) для каждого класса ферментов: (proteome:UP000000537) AND ((ec:*) OR (keyword:KW-0378) OR (keyword:KW-0560) OR (keyword:KW-0808) OR (keyword:KW-0436) OR (keyword:KW-0456) OR (keyword:KW-0413) OR (keyword:KW-1278)). При таком запросе получается 1467 белков. В последнем запросе скорее всего находятся белки с каталитической активностью, но некоторые из них не имеют подтвержденного описания реакции, субстратов которые используются, поэтому им не присваивается EC. Для такого протеома более правдоподобной оценкой является последняя, около 1500 белков с ферментативной активностью.