В этом практикуме мы продолжаем изучать протеом бактерии Lactobacillus amylovorus, рассмотренной в первом семестре. Для этого мы нашли в UniProt Proteomes протеом нашей бактерии и используемой как референсной бактерией Escherichia coli (штамм K-12).
Потом мы решили узнать, различаются ли у этих бактерий доли белков некоторых функциональных классов. Результаты приведены в таблице 1. Для поиска были использованы следующие запросы:
annotation:(type:transmem) AND proteome:up000000625
annotation:(type:transmem) AND proteome:up000008140
ec:* AND proteome:up000000625
ec:* AND proteome:up000008140
hydrolase AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625
hydrolase AND organism:"Lactobacillus amylovorus (strain GRL 1118) [695562]" AND proteome:up000008140
Таблица 1. Сравнение протеомов двух бактерий
Организм | Escherichia coli (strain K-12) | Lactobacillus amylovorus (strain GRL 1118) |
Proteome ID | UP000000625 | UP000008140 |
Общее количество белков | 4391 | 1913 |
Количество белков в Swiss-Prot | 4389 | 0 |
Количество трансмембранных белков | 946 (21,5%) | 429 (22,4%) |
Количество ферментов | 1676 (38,2%) | 341 (17,8%) |
Количество гидролаз | 537 (12,2 %) | 228 (11,9 %) |
Отметим, что у кишечной палочки белков раза в 2 больше, поэтому корректно для сравнения использовать именно доли. Почти все белки палочки проверены вручную, чего нельзя сказать о лактобактерии. Хотя это неудивительно, считая что палочка - модельный организм, а вторая бактерия - не самая известная лактобактерия. Доля трансмембранных белков почти одинаковая у обеих бактерий, по всей видимости, в основном это жизненно важные белки домашнего хозяйства. А вот доля ферментов, и более того, гидролаз у E. coli выше, хотя я ожидал, что лактобактерия, проживая на богатых органикой субстратах (непереваренных остатках) будет иметь больше различных гидролаз и разнообразных ферментов. Во-первых, такой неожиданный результат может быть связан со слабой изученностью протеома лактобактерии. Во-вторых, возможно это связано с отсутствием белков в Swiss-Prot, то есть если белки были бы проверены вручную, то доля тех же гидролаз могла бы стать выше.
На злобу дня (текст был написан в разгар пандемии коронавируса) мы должны были изучить одного из представителей семейства Coronaviridae. RNA-геном коронавирусов кодирует несколько огромных полипротеинов и одиночных белков. Затем полипротеины нарезаются протеазами на более мелкие белки, которые потом будут собирать капсид, реплицировать вирус или выполнять другие функции (например у нынешнего коронавируса есть протеаза с милым около-китайским названием PanDDA). В этом задании мы должны получить последовательность одного из зрелых белков коронавируса, который получается в процессе гидролиза полипротеина 1ab, в формате fasta с помощью EMBOSS. Мне достался белок из вируса SARS (AC: P0C6X7), правда не свежего, а 2003 года.
В качестве одного из белков была выбрана папаино-подобная протеаза. Чтобы получить наш fasta-файл, мы применили следующие команды:
entret 'sw:P0C6X7' 'r1ab_cvhsa.tmp'
grep 'FT CHAIN' r1ab_cvhsa.tmp (файл)
seqret 'r1ab_cvhsa.tmp[819:2740]' 'protease.fasta' (файл)
descseq -seq protease.fasta -out protease.fasta -name "Papain-like_proteinase" -desc " "
Посмотреть получившийся файл можно тут.
Чтобы понять, что произошло выше, приведем описание команды descseq
. Функция ее заключается в назначении имени или описания последовательности.
Команда принимает на вход последовательность, читает ее и записывает в другой файл с другим названием (через > и без пробелов) вверху или описанием через пробел после названия.
Параметр -seq назначает StdIn, параметр -out StdOut.
Параметр -name редактирует имя, а -desc - описание (через пробел после названия).
Пример применения команды можно увидеть выше.