Протеомы в UniProt и основы EMBOSS


Сравнение протеомов

В этом практикуме мы продолжаем изучать протеом бактерии Lactobacillus amylovorus, рассмотренной в первом семестре. Для этого мы нашли в UniProt Proteomes протеом нашей бактерии и используемой как референсной бактерией Escherichia coli (штамм K-12).

Потом мы решили узнать, различаются ли у этих бактерий доли белков некоторых функциональных классов. Результаты приведены в таблице 1. Для поиска были использованы следующие запросы:

annotation:(type:transmem) AND proteome:up000000625
annotation:(type:transmem) AND proteome:up000008140
ec:* AND proteome:up000000625
ec:* AND proteome:up000008140
hydrolase AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625
hydrolase AND organism:"Lactobacillus amylovorus (strain GRL 1118) [695562]" AND proteome:up000008140

Таблица 1. Сравнение протеомов двух бактерий

Организм Escherichia coli (strain K-12) Lactobacillus amylovorus
(strain GRL 1118)
Proteome ID UP000000625 UP000008140
Общее количество белков 4391 1913
Количество белков в Swiss-Prot 4389 0
Количество трансмембранных белков 946 (21,5%) 429 (22,4%)
Количество ферментов 1676 (38,2%) 341 (17,8%)
Количество гидролаз 537 (12,2 %) 228 (11,9 %)

Отметим, что у кишечной палочки белков раза в 2 больше, поэтому корректно для сравнения использовать именно доли. Почти все белки палочки проверены вручную, чего нельзя сказать о лактобактерии. Хотя это неудивительно, считая что палочка - модельный организм, а вторая бактерия - не самая известная лактобактерия. Доля трансмембранных белков почти одинаковая у обеих бактерий, по всей видимости, в основном это жизненно важные белки домашнего хозяйства. А вот доля ферментов, и более того, гидролаз у E. coli выше, хотя я ожидал, что лактобактерия, проживая на богатых органикой субстратах (непереваренных остатках) будет иметь больше различных гидролаз и разнообразных ферментов. Во-первых, такой неожиданный результат может быть связан со слабой изученностью протеома лактобактерии. Во-вторых, возможно это связано с отсутствием белков в Swiss-Prot, то есть если белки были бы проверены вручную, то доля тех же гидролаз могла бы стать выше.

Получение зрелых белков одного из коронавирусов c помощью EMBOSS

На злобу дня (текст был написан в разгар пандемии коронавируса) мы должны были изучить одного из представителей семейства Coronaviridae. RNA-геном коронавирусов кодирует несколько огромных полипротеинов и одиночных белков. Затем полипротеины нарезаются протеазами на более мелкие белки, которые потом будут собирать капсид, реплицировать вирус или выполнять другие функции (например у нынешнего коронавируса есть протеаза с милым около-китайским названием PanDDA). В этом задании мы должны получить последовательность одного из зрелых белков коронавируса, который получается в процессе гидролиза полипротеина 1ab, в формате fasta с помощью EMBOSS. Мне достался белок из вируса SARS (AC: P0C6X7), правда не свежего, а 2003 года.

В качестве одного из белков была выбрана папаино-подобная протеаза. Чтобы получить наш fasta-файл, мы применили следующие команды:

entret 'sw:P0C6X7' 'r1ab_cvhsa.tmp'
grep 'FT   CHAIN' r1ab_cvhsa.tmp (файл)
seqret 'r1ab_cvhsa.tmp[819:2740]' 'protease.fasta' (файл)
descseq -seq protease.fasta -out protease.fasta -name "Papain-like_proteinase" -desc " "

Посмотреть получившийся файл можно тут.

Описание утилиты из пакета EMBOSS

Чтобы понять, что произошло выше, приведем описание команды descseq. Функция ее заключается в назначении имени или описания последовательности. Команда принимает на вход последовательность, читает ее и записывает в другой файл с другим названием (через > и без пробелов) вверху или описанием через пробел после названия. Параметр -seq назначает StdIn, параметр -out StdOut. Параметр -name редактирует имя, а -desc - описание (через пробел после названия). Пример применения команды можно увидеть выше.