Учебный сайт Левина Ильи, 2-й семестр

Сравнение протеомов E. coli strain K-12 и L. amylolyticus; Задания EMBOSS

Сравнение протеомов E. coli strain K-12 и L. amylolyticus

Escherichia coli strain K-12

Кишечная палочка (лат. Escherichia coli) — вид грамотрицательных палочковидных бактерий, широко распространённых в нижней части кишечника теплокровных животных. Большинство штаммов E. coli являются безвредными, включая и обозреваемый, а также являются частью нормальной флоры кишечника человека и животных. Кишечная палочка приносит пользу организму хозяина, например, синтезируя витамин K, а также предотвращая развитие патогенных микроорганизмов в кишечнике^[1].

Lactobacillus amylolyticus

Лактобаци́ллы (лат. Lactobacillus) — род грамположительных факультативно анаэробных или микроаэрофильных бактерий.

Один из важнейших в группе молочнокислых бактерий, большинство членов которой превращают лактозу и другие углеводы в молочную кислоту. В большинстве случаев они непатогенны, многие виды выполняют положительную роль в питании человека. У человека они постоянно присутствуют в кишечнике, во влагалище, где являются симбионтами и составляют значительную часть микрофлоры кишечника и основную микрофлору влагалища. Многие виды принимают участие в разложении остатков растений. Они продуцируют молочную кислоту, а кислая среда препятствует росту многих патогенных бактерий и грибов^[2].

Если говорить про вид L. amylolyticus, но про него известно только то, что возник этот вид простой таксономической рекомбинацией, а получен был из пивного сусла^[3].

Сравнивать протеомы мы будем по 3-м критериям: относительному количеству трансмембранных белков, относительному количеству белков-энзимов и, так как обе бактерии из таких родов, которые формируют различные микрофлоры организма человека, будет логичным сравнить количество белков-рецепторов. Заодно сможем лучше понять, откуда эта L. amylolyticus вышла и где реально обитает.

У обеих бактерий есть референсные протеомы в базе Proteomes UniProt.

Proteome ID: UP000000625;

Всего в кишечной палочке (штамм К-12) 4391 белок. Из них 4389 штук находятся в Swiss-Prot и всего лишь 2 - в TrEMBL.

Proteome ID: UP000004069;

Всего в протеоме L. amylolyticus 1684 белка, и абсолютно все находятся в TrEMBL.

Заметим, что размер протеома бактерий сильно разнится, поэтому измерение процентного содержания в протеомах той или иной заявленной выше группы белков я считаю более объективным, нежели просто сравнение абсолютных количеств, поэтому сравнивать буду именно относительные процентные значения.

Результаты будут представленны в виде диаграмм, наглядно показывающих содержание в протеоме тех или иных белков.

Eсoli_diag.png — Рис. 1. Процентное соотношение разных типов белков в протеоме *E. coli*

Рис. 2. Процентное соотношение разных типов белков в протеоме *L. amylolyticus*

Сразу стоит заметить то, что протеом E. coli аннотирован гораздо лучше (один из самых изученных в мире), нежели протеом L. amylolyticus. Это видно и по количеству записей, и по качеству: какая доля этих записей аннотированная в Swiss-Prot.

Но это не сказывается на получившемся соотношении трансмембранных белков в обоих протеомах. Оно оказалось более-менее одинаковым, и я думаю, что оно и на самом деле так и есть, так как автоматическая аннотация достаточно хороша, да и трансмембранность (а абсолютное большинство трансмембранных белков - α-спиральные) предсказать довольно-таки просто.

Но как тогда объяснить различие в доле ферментов? Тут можно поразмышлять... У меня в голове сформировалось 2 варианта:

Алгоритмы могут недостаточно хорошо предсказывать ферментативную активность белков, и может получиться так, что они дописали буквы "EC" не во все записи протеома L. amylolyticus.
У E. coli ферментов больше, так как она обитает в организменной среде, участвует в большой куче процессов, и для этого ей нужен достаточный набор ферментов, в то время как L. amylolyticus нашли в пивном сусле, в питательной среде, где она не задействована в большом количестве процессов, как E. coli, поэтому L. amylolyticus не нужно такое количество ферментов, а нужно лишь слегка поменьше.

А доля белков-рецепторов в протеоме E. coli в 3 раза больше, чем в протеоме исследуемой лактобациллы. Это достаточно сильная разница, я не думаю, что её можно списать на ошибки в методологических аспектах. Мне кажется, что такую разницу можно объяснить как раз тем, что среды обитания этих двух бактерий разные: у одной - организменная среда, а у второй - простая питательная. Организменная среда более агрессивная, и для того, чтобы там нормально вести жизнедеятельность, необходимо достаточное количество рецепторов для анализа того, что вокруг вообще происходит, и для правильной реакции на изменение окружающей среды.

Получение зрелого белка из полипротеина вируса MERS

AC полипротеина: K9N7C7;

Скачиваем полную запись полипротеина. Для этого воспользуемся командой:

entret 'sw:K9N7C7' 'polyprot.txt'

Теперь в файле polyprot.txt у нас лежит полная запись про наш полипротеин. Теперь нам необходимо выделить из него все упоминания CHAIN из FT. Воспользуемся командой:

grep 'FT   CHAIN' polyprot.txt >> chains.txt

Теперь у нас хранятся все цепи белка в файле chains.txt. Сохраним из него одну цепь, 3248..3553, например, в fasta-формате. Воспользуемся командой:

seqret 'sw:K9N7C7[3248:3553]' 'fasta::seq.fasta'

И вот, в файле seq.fasta у нас теперь лежит цепь зрелого белка из полипротеина. Осталось только поменять в fasta-файле самую первую строчку названия на соответствующее. Воспользуемся командой:

descseq 'seq.fasta' 'seq.fasta' -name '3CL_PRO' -description '3C-like proteinase P0C6X7'

Вуаля! Необходимая нам цепь сохранена в fasta-формате с правильным описанием, жизнь прекрасна! Здесь будет ссылка на итоговый fasta-файл.

Объясняем команду descseq

Эта команда используется для изменения названия и описния последовательностей. У неё есть 2 обязательных аргумента: входной файл (можно USA) и выходной файл (также можно USA). С помощью этих 2-х аргументов можно скопировать файл с новым именем или ничего с именем файла не делать, если эти 2 аргумента сделать одинаковыми.

Далее для изменения названия и описания последовательностей можно ввести 1 или 2 аргумента: -name или(и) -description. То, что вы будете вводить после каждого из аргументов, будет восприниматься программой как название и описание последовательности соответственно. Команда может выглядеть по-разному:

```
descseq <USA format> <USA format> -name ' ' -description ' '
```
- таким образом мы удалим название и описание последовательности. Можно писать аргументы по отдельности, можно вместе, как это сделано в примере выше;
```
descseq <USA format> <USA format> -name 'bla-bla-bla' -description 'bla-bla-bla'
```
- таким образом мы поменяем назавание и описание последовательности на "bla-bla-bla". Вместо "bla-bla-bla" можно вставить любой текст, главное в кавычках, чтобы он точно распознавался, как строка. Аргументы можно вводить по отдельности, а можно и вместе, как указано в примере выше.

Пример использования программы на практике Вы можете найти выше, в задании 2.

Литература:

Википедия, Свободная энциклопедия, русская - Кишечная палочка (14.04.2020);
Википедия, Свободная энциклопедия, русская - Лактобациллы (14.04.2020);
PubMed: Lactobacillus amylolyticus sp. nov., isolated from beer malt and beer wort;