ПРОТЕОМ БАКТЕРИИ СЕННОЙ ПАЛОЧКИ Bacillus subtilis (strain 168)

В данной работе рассматривается протеом бактерии сенной палочки (Bacillus subtilis (strain 168)), один из белков которой (Рибонуклеаза J1; UniProt ID - RNJ1_BACSU) был описан в предыдущей работе.

Сенная палочка является грамположительной спорообразующей аэробной почвенной бактерией. Впервые как вид сенная палочка была описана в 1835 году Эренбергом (Vibrio subtilis), свое название она получила из-за того, что накопительные культуры этого организма получают из сенного экстракта. Является популярным модельным организмом и широко используется в биотехнологии, в частности как продуцент некоторых полипептидных антибиотиков и в промышленном производстве ферментов амилазы и протеазы[1]. С Таксономическим положением Bacillus subtilis согласно NCBI Taxonomy можно ознакомится в Таблице 1.

В данной работе протеом сенной палочки сравнивается с протеомом кишечной палочки (Escherichia coli (strain K12)), одного из самых изученных организмов (геном данного штамма был отсеквенирован одним из первых в 1997 году)[2]. Для сравнения таксономического положения сенной и кишечной палочек также можно воспользоваться Таблицей 1.

Таблица 1. Таксономическое положение Bacillus subtilis и Escherichia coli[3].
BACILLUS SUBTILISESCHERICHIA COLI
SUPRERKINGDOM Bacteria Bacteria
PHYLUM Firmicutes Proteobacteria
CLASS Bacilli Gammaproteobacteria
ORDERBacillales Enterobacterales
FAMILY BacillaceaeEnterobacteriaceae
GENUS Bacillus Escherichia
SPECIES GROUPBacillus subtilis group-
SPECIES Bacillus subtilisEscherichia coli
SUBSPECIESBacillus subtilis subsp. subtilis-
STRAINBacillus subtilis subsp. subtilis str. 168 Escherichia coli (strain K12)

ПРОТЕОМЫ

Протеом представляет из себя совокупность белков, производимых организмом. Протеомы, рассматриваемые в работе были взяты из базы данных UniProt. UniProt предоставляет протеомы лишь тех организмов, геном которых полностью ссеквенирован[4]. Любопытно также, что количство белков в составе протеома обыкновенно превосходит число генов в геноме, что достигается засчет альтернативного сплайсинга и посттрансляционной модификации белков ( к примеру фосфорилирования и гликозилирования)[5]. Общие данные о протеомах Bacillus subtilis и Escherichia coli предствлены в Таблице 2. Оба рассматриваемых протеома относятся к категории Reference.

Таблица 2. Общие данные о протеомах Bacillus subtilis и Escherichia coli[3].
Bacillus subtilis Escherichia coli
PROTEOM IDUP000001570UP000000625
PROTEIN COUNT41974306
RESIDUES12309201356195

СРАВНЕНИЕ ПРОЦЕНТНОГО СОДЕРЖАНИЯ АМИНОКИСЛОТ В ПРОТЕОМАХ Bacillus subtilis и Escherichia coli.

В Таблице 3 заключены данные о процентном содержании каждой аминокислоты в протеомах Bacillus subtilis и Escherichia coli. В первой колонке перечислены все встречающиеся в протеомах данных бактерий аминокислотные остатки в виде однобуквенного кода (В протеоме Escherichia coli помимо перечисленных в таблице аминокислотных остатков содержится три остатка селеноцистеина (U), который учитывался при рассчетах общего количества остатков в протеоме и процентного содержания каждого из них, но не рассматривается в таблице.).

Вторая и третья колонка содержат информацию о процентном содержании каждого аминокислотного остатака в протеоме (какой процент составляет данная аминокислота от общего количество аминокислотных остатков в протеоме) соответственно Bacillus subtilis и Escherichia coli.

В четвертой колонке представлена разность между процентным содержанием данной аминокислоты в протеоме Bacillus subtilis и содержанием в протеоме Escherichia coli. При этом положительный результат в четвертой колонке говорит о преобладании относительного количества данного аминокислотного остатка в протеоме Bacillus subtilis, а отрицательный о его преобладании в протеоме Escherichia coli. Аминокислотные остатки в таблице выстроены в порядке убывания их процентного содержания в протеоме Bacillus subtilis.

Таблица 3. Сравнение процентного содержания аминокислот в протеомах Bacillus subtilis и Escherichia coli.
Аминокислотный остаток Содержание в протеомеBacillus subtilis(%)Содержание в протеоме Escherichia coli(%)Разность
L9,66110,672-1,011
A7,6859,514-1,829
I7,3696,011,359
E7,2635,7621,501
K7,0654,4062,659
G6,9177,375-0,458
V6,7517,073-0,322
S6,2785,8020,476
T5,425,3990,021
D5,1895,1510,038
F4,53,8910,609
R4,095,511-1,421
N3,9483,9450,003
Q3,8374,44-0,603
P3,6654,426-0,761
Y3,492,8450,645
M2,7842,82-0,036
H2,2682,2670,001
W1,0341,531-0,497
C0,7851,158-0,373

АНАЛИЗ ТАБЛИЦЫ 3

Основываясь на данных, представленных в Таблице 3, можно выявить следующие особенности:

  • Первые два наиболее часто встречающиеся аминокилотные остатки совпадают для двух протеомов - Лейцин (L) и Аланин (A).
    При этом на третьем месте у Bacillus subtilis глицин (G) (шестое по распростренненности место в протеоме Escherichia coli), а у Escherichia coli - Изолейцин (I) (пятное место у Bacillus subtilis).
    То есть среди первых трех наиболее распространенных аминокислотных остатков наблюдаются существенные отличия, особенно по третьему остатку (однако первые два самых частых тоже достаточно сильно различаются по процентному содержанию в протеоме.)
  • В противополжность этому пять самых редких аминокислотных остатков абслютно совпадают по своему расположению в таблице (16 - Tyr, 17 -Met, 18 - His, 19 - Trp, 20 - Cys).
    При этом различия в их процентном содержании в двух различных протеомах минимальны и колеблются в пределах от 0,001% (His) до 0,645% (Tyr).

  • Наибольшая разница в содержании аминокислотного остатка наблюдается для лизина (К) и составляет 2,659% в пользу Bacillus subtilis (для сенной палочки лизин занимает пятое место по частоте встречаемости, а для кишечной палочки - тринадцатое).

  • Интересно что наибольшая разница в пользу Escherichia coli наблюдается для аланина (A), второго по частоте встречаемости аминокислотного остатка в обоих протеомах, и составляет 1,829%.

  • Любопытной особенностью двух данных протемов является их сильное сходтво по процентному содержанию некоторых аминокислот - 0,001% для гистидина, 0,003% для аспарагина, 0,021% для треонина и 0,038% для аспарагиновой кислоты.

ВЫВОДЫ

Несмотря на достаточно крупный разброс в разнице содержания определенных аминокислот в протеомах (до 2,659%), нельзя не отметить сходства в процентном содержании аминокислот в протеомах (проентное содержание колеблется от 0,785% (цистеин у сенной палочки) до 10,672% (лейцин кишечной палочки)). Для некоторых аминокислот (несмотря на диапозон возможного процентного содержания в 10%) разница в содержании составляет тысячные процента. Так как рассматриваемые организмы не являеются родственными: принадлежат к разным отделам, как видно из Таблицы 1, на основании сравнения протеомов Bacillus subtilis и Escherichia coli вероятно возможен следующий вывод:
У бактрий сохраняется приблизительно равное относительное содержание аминокислот в протеоме (процент количества данных аминокислотных в протеоме от общего числа аминокислотных остатков) независимо от степени их родства.

МЕТОДЫ

Работа была сделана на основе протеомов Bacillus subtilis и Escherichia coli, скачанных из базы данных UniProt.
Количество определенных аминокислот в обоих протеомах было подсчитано при помощи программы wordcount. Полученные на выходе работы программы данные были обработаны в Excel (функции СУММ и ОКРУГЛТ). Округление производилось до трех знаков после запятой, так как разница в процентном содержании аминокислот в двух протеомах в некоторых случаях настолько мала, что при округлении до двух знаков получается равной нулю.

ПРОГРАММА COMPSEQ

Программы wordcount (использовавшаяся при выполнении данной работы) и compseq выполняют аналогичные операции, однако все же несколько отличаются друг от друга. Обе программы получают на вход имя файла, содержащего последовательность, затем количество символов в слове (уникальные сочетания символов какой длины программа будет подсчитывать), затем имя файла, который должен будет полчиться на выходе работы программы. Обе программы подсчитывают количество уникальных сочетаний символов заданной длины в заданных пользовалетем последовательностях, однако формат выведения и объем предоставляемой информации программ различается:
  • Wordcount создает документ содержащий таблицу из двух колонок, в одной из которой всевозможные сочетания встречающиеся в данных поледовательностях заданной длины (в данной работе, где было подсчитано число аминокислот, длина слова равнялась 1), в другой колонке - количество данных сочетаний в последовательности.

  • Compseq создает файл с аналогичной таблицей, однако дополненный некоторыми деталями:

    1. В файле содержится название нескольких последовательностей, данных на вход (если эта информация содержалась в исходном файле)
    2. Присутствует строка с заданной длиной слова
    3. Посчитано общее количество символов в последовательности
    4. В таблице присутствуют названия колонок. Помимо описанных для wordcount двух столбцов в таблицу compseq есть еще три, в которых содержится информация о
    5. Наблюдаемой частоте встречаемости данного слова в последовательности (количество раз, когда слово встретилось в последовательности / общее число символов последовательности)
    6. Ожидаемой частоте встречаемости данного слова в последовательности (рассчитанная, как если бы данное множество было случайным - одинаковое для каждого слова значание, равное 1/общее количество возможных слов данной длины(число встречаемых аминокислот в квадрате))
    7. Отношении наблюдаемой частоте к ожидаемой частоте.

  • Однако в случае если длина слова больше 1, wordcount выдает в таблице только слова, встретившиеся в последовательности хотя бы один раз, compseq же выдает всевозможные сочетания символов составляющие слово данной длины не зависимо от того, присутствует ли данное слово в последовательности (в случае отсутствия слова частота его встречаемости и количество нахождений обозначаются равными нулю).

Таким образом, особенности этих програм определяют области их применения. В данной работе первоначально была использована программа wordcount, однако для решения поставленных задач куда лучше подошла бы программа compseq. Ее исплользование позволило бы обойтись без привлечения дополнительных ресурсов для подсчета частот встречаемости и общего числа аминоксилот (это было сделано при помощи формул Excel). Однако если необходимо получить информацию о словах длиной более 1, при этом необходима информация только о количествах вхождений слов в последовательность, куда целесообразнее использовать wordcount - вычленение информации из compseq для слов сдлиной >2 потребует дополнительных усилий.

Любопытно также, что общее количество слов в последовательности, подсчитанное compseq для протеома Escherichia coli оказалось на 15 аминокислотных остатков больше, чем сумма всех вхождений аминокислотных остатков в последовательность, рассчитанная wordcount. Эти 15 слов выведены в таблице compseq c обозначеним "others" и ожиаемой частотой встречаемости равной нулю. В данной работе при рассчетах эти 15 символов не учитывались, как и одие символ из этой же категории, найденный для Bacillus subtilis.

ИСТОЧНИКИ

  1. https://ru.wikipedia.org/wiki/Сенная_палочка
  2. https://ru.wikipedia.org/wiki/Кишечная_палочка
  3. https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=224308
  4. http://www.uniprot.org/proteomes/
  5. https://ru.wikipedia.org/Протеом

© Анна Камышева 2016