Кишечная палочка (лат. Escherichia coli) — вид грамотрицательных палочковидных бактерий, широко распространённых в нижней части кишечника теплокровных животных. Большинство штаммов E. coli являются безвредными, включая и обозреваемый, а также являются частью нормальной флоры кишечника человека и животных. Кишечная палочка приносит пользу организму хозяина, например, синтезируя витамин K, а также предотвращая развитие патогенных микроорганизмов в кишечнике[1].
Лактобаци́ллы (лат. Lactobacillus) — род грамположительных факультативно анаэробных или микроаэрофильных бактерий.
Один из важнейших в группе молочнокислых бактерий, большинство членов которой превращают лактозу и другие углеводы в молочную кислоту. В большинстве случаев они непатогенны, многие виды выполняют положительную роль в питании человека. У человека они постоянно присутствуют в кишечнике, во влагалище, где являются симбионтами и составляют значительную часть микрофлоры кишечника и основную микрофлору влагалища. Многие виды принимают участие в разложении остатков растений. Они продуцируют молочную кислоту, а кислая среда препятствует росту многих патогенных бактерий и грибов[2].
Если говорить про вид L. amylolyticus, но про него известно только то, что возник этот вид простой таксономической рекомбинацией, а получен был из пивного сусла[3].
Сравнивать протеомы мы будем по 3-м критериям: относительному количеству трансмембранных белков, относительному количеству белков-энзимов и, так как обе бактерии из таких родов, которые формируют различные микрофлоры организма человека, будет логичным сравнить количество белков-рецепторов. Заодно сможем лучше понять, откуда эта L. amylolyticus вышла и где реально обитает.
У обеих бактерий есть референсные протеомы в базе Proteomes UniProt.
Proteome ID: UP000000625;
Всего в кишечной палочке (штамм К-12) 4391 белок. Из них 4389 штук находятся в Swiss-Prot и всего лишь 2 - в TrEMBL.
Proteome ID: UP000004069;
Всего в протеоме L. amylolyticus 1684 белка, и абсолютно все находятся в TrEMBL.
Заметим, что размер протеома бактерий сильно разнится, поэтому измерение процентного содержания в протеомах той или иной заявленной выше группы белков я считаю более объективным, нежели просто сравнение абсолютных количеств, поэтому сравнивать буду именно относительные процентные значения.
Результаты будут представленны в виде диаграмм, наглядно показывающих содержание в протеоме тех или иных белков.
Сразу стоит заметить то, что протеом E. coli аннотирован гораздо лучше (один из самых изученных в мире), нежели протеом L. amylolyticus. Это видно и по количеству записей, и по качеству: какая доля этих записей аннотированная в Swiss-Prot.
Но это не сказывается на получившемся соотношении трансмембранных белков в обоих протеомах. Оно оказалось более-менее одинаковым, и я думаю, что оно и на самом деле так и есть, так как автоматическая аннотация достаточно хороша, да и трансмембранность (а абсолютное большинство трансмембранных белков - α-спиральные) предсказать довольно-таки просто.
Но как тогда объяснить различие в доле ферментов? Тут можно поразмышлять... У меня в голове сформировалось 2 варианта:
А доля белков-рецепторов в протеоме E. coli в 3 раза больше, чем в протеоме исследуемой лактобациллы. Это достаточно сильная разница, я не думаю, что её можно списать на ошибки в методологических аспектах. Мне кажется, что такую разницу можно объяснить как раз тем, что среды обитания этих двух бактерий разные: у одной - организменная среда, а у второй - простая питательная. Организменная среда более агрессивная, и для того, чтобы там нормально вести жизнедеятельность, необходимо достаточное количество рецепторов для анализа того, что вокруг вообще происходит, и для правильной реакции на изменение окружающей среды.
AC полипротеина: K9N7C7;
Скачиваем полную запись полипротеина. Для этого воспользуемся командой:
entret 'sw:K9N7C7' 'polyprot.txt'
Теперь в файле polyprot.txt у нас лежит полная запись про наш полипротеин. Теперь нам необходимо выделить из него все упоминания CHAIN из FT. Воспользуемся командой:
grep 'FT CHAIN' polyprot.txt >> chains.txt
Теперь у нас хранятся все цепи белка в файле chains.txt. Сохраним из него одну цепь, 3248..3553, например, в fasta-формате. Воспользуемся командой:
seqret 'sw:K9N7C7[3248:3553]' 'fasta::seq.fasta'
И вот, в файле seq.fasta у нас теперь лежит цепь зрелого белка из полипротеина. Осталось только поменять в fasta-файле самую первую строчку названия на соответствующее. Воспользуемся командой:
descseq 'seq.fasta' 'seq.fasta' -name '3CL_PRO' -description '3C-like proteinase P0C6X7'
Вуаля! Необходимая нам цепь сохранена в fasta-формате с правильным описанием, жизнь прекрасна! Здесь будет ссылка на итоговый fasta-файл.
Эта команда используется для изменения названия и описния последовательностей. У неё есть 2 обязательных аргумента: входной файл (можно USA) и выходной файл (также можно USA). С помощью этих 2-х аргументов можно скопировать файл с новым именем или ничего с именем файла не делать, если эти 2 аргумента сделать одинаковыми.
Далее для изменения названия и описания последовательностей можно ввести 1 или 2 аргумента: -name или(и) -description. То, что вы будете вводить после каждого из аргументов, будет восприниматься программой как название и описание последовательности соответственно. Команда может выглядеть по-разному:
descseq <USA format> <USA format> -name ' ' -description ' '- таким образом мы удалим название и описание последовательности. Можно писать аргументы по отдельности, можно вместе, как это сделано в примере выше;
descseq <USA format> <USA format> -name 'bla-bla-bla' -description 'bla-bla-bla'- таким образом мы поменяем назавание и описание последовательности на "bla-bla-bla". Вместо "bla-bla-bla" можно вставить любой текст, главное в кавычках, чтобы он точно распознавался, как строка. Аргументы можно вводить по отдельности, а можно и вместе, как указано в примере выше.
Пример использования программы на практике Вы можете найти выше, в задании 2.