Анализ состава протеомов Escherichia coli K12 Сorynebacterium glutamicum ATCC 13032


В ходе работы были рассмотрены два протеома: небезызвестной E.coli K12 и Corynebacterium glutamicum ATCC 13032. Ниже приведены основные данные об исследуемых протеомах:

Бактерия Corynebacterium glutamicum E.coli
Штамм ATCC 13032 K12
ID протеома UP000000582 UP000000625
Количество белков протеома 3,093 4,306
Число аминокислотных остатков 855487 1356195
Таблица 1.Характеристика протеомов

Впоследствии была провдена работа по статистической обработке буквенного состава вышеозначенных протеомов. C помощью клиента для протоколомв удалённого доступа PuTTY и команды пакета EMBOSS wordcount был произведён рассчёт частоты встречаемости каждого аминокислотного остатка, а так же оценка их суммарного содержания в протеоме.

Далее выдача программы была импортирована в файл Excel для последующей статистической обратки. Результат оной можно наблюдать в Таблице 2 ниже.
Стоит отметить, в данном исследовании нас более интересовали показатели протеома Corynebacterium glutamicum ATCC 13032, E.coli послужила скорее объектом сравнения, достаточно распространённым, чтобы облегчить получение более объективной оценки получившимся результатам.

Анализ частоты встречаемости аминокислотных остатков в ислледумеых протеомах

ОстатокC.glutamicum E.coli Разность
A 12,01% 9,51% +2,50%
L 10,84% 10,67% +0,16%
G 9,00% 7,37% +1,62%
V 8,91% 7,07% +1,83%
S 7,16% 5,80% +1,36%
E 7,12% 5,76% +1,35%
T 6,91% 5,40% +1,51%
D 6,66% 5,15% +1,51%
I 6,47% 6,01% +0,46%
R 6,27% 5,51% +0,76%
P 5,42% 4,43% +1,00%
F 4,07% 3,89% +0,18%
K 3,91% 4,41% -0,50%
Q 3,79% 4,44% -0,65%
N 3,69% 3,95% -0,25%
M 2,60% 2,82% -0,22%
Y 2,49% 2,85% -0,36%
H 2,38% 2,27% +0,11%
W 1,58% 1,53% +0,05%
C 0,75% 1,16% -0,41%
Таблица 2. Частота встречаемости аминокислотных остатков в протеомах

Из Таблицы 2 видно, что исследуемые протеомы рознятся в плане встречаемости в них тех или иных аминокислотных остатков. Самым встречаемым в протеоме бактерии C.glutamicum можно по праву считать аланин, тогда как в протеоме кишечной палочки он занимает лишь второе место, у E.coli наиболее встречаем лейцин. Глицин и валин в обоих протеомах делят третье и четвёрое место по встречаемости. Далее, следуя вниз по таблице, наблюдаемые различия в частоте становятся более значительными. Хотелось бы отметить, что одна строка была исключена из таблицы - при таком приближении вклад селеноцистеина не может быть учтён. Однако же целых три данных аминокислотных остатка присутствуют в протеоме E.coli, и они учтены в общем количестве остатков в Таблице 1

Максимальная разность встречаемости достигается как раз в значениях для аланина, валина, глицина - по модулю равным 2.5, 1.8 и 1.6 соответственно. Будет уместным добавить, что знак '-'или '+' в разности процентного содержания того или иного аминокислотного остатка обозначает в положительную или отрицательную сторону отличается показатель интересующего нас объекта от объекта сравнения: знак плюс означает, что процентное содержание остатка больше у C.glutamicum, знак минус, наоборот, показывает, что остаток преобладает в E.coli относительно С.glutamicum.

Изначальные выдачи команды wordcount можно просмотреть в приложенном к работе файле в формате xlsx, доступным по ссылке.

Небольшая справка касательно команд compseq и wordcount.

Несмотря на то, что данная работа была выполнена с помощью средств второй команды, compseq, несомненно, тоже представляет интерес с точки зрения реализаии поставленной задачи.
Compseq более обширна, предоставляет больше возможностей, помимо подсчёта встречаемости какого-то мотива в последовательности и выдачи статистической справки в заданный выходной файл - стандартного набора возможностей wordcount. Если вводить в командную строку те же самые данные (командная строка при заданном входном файле взаимодействует с пользователем точно так же, как и в случае wordcount'a), базовый output выглядит внушительнее и имеет больше смысла.
Команда более узкоспециализирована, она самостоятельно предоставляет частоту встречаемости "слов" заданной длины, оперируя с ними как с остатками, поэтому способна предложить ожидаемую частоту встречаемости мотивов и вывести отношение наблюдаемой частоты к ожидаемой. То есть оценку частоты встречаемости, что в случае wordcount нам пришлось делать самостоятельно, compseq выполнила за пользователя, что делает её несравненно удобнее для наших целей.
Помимо того compseq поддерживает такие опции, как поиск мотива в конкретной рамке считывая, каждый раз сдивая ту на заданную длину, что, например, позволило бы искать конкретные кодоны в последовательности, или анализировать разные рамки, задав таковые несколько раз со сдвигом. Более того, "слова" можно искать и в обратной последовательности, применив опцию reverse.
Возвращаясь к теме анализа частоты встречаемости, compseq может использовать в качестве ожидаемой частоты данные из другого файла, сгенерированного с помощью compseq ранее. Для мотивов больше одного остатка возможно так же задать программе высчитывать ожидаемую частоту их встречаемости из частоты встречаемости одиночных остатков. Так как не слишком понятно, откуда программа берёт хвалёные "ожидаемые" частоты, это очень удобно в случае, если мы хотим проверить стандартную выдачу.
И, в целом, делает программу более надёжной для применения к конкретным задачам.
Compseq предоставляет неожиданную опцию считать или не считать слова, содержащие нечасто используемые коды, обозначающие или кислоту, или её амид (актуально для Glu и Asp).
И последнее - compseq позволяет оптимизировать вывод, указав, что нулевые строки программа не должна записывать в выходной файл. Насколько я понимаю, в wordcount эта опция встроена автоматически. Впрочем, этот вывод сделан на основе того, что команда не вывела селено-цистеин в качественно содержании остатков исследуемого нами объекта C.glutamicum. Возможно, wordcount работает так только для неканоничных, редких аминокислот - это допущение ещё стоит проверить.

Но одно стоит сказать точно - даже на этом этапе работы можно наблюдать, насколько wordcount уступает compseq в возможностях. Наш фаворит значительно упрощает работу исследователю, некотурую часть механической работы выполняя самостоятельно - очевидно, что при вохможности для работы стоит выбирать именно compseq. Подозреваю, что я не буду одинока в своём мнении.


Вернуться назад

На главную страницу


©Solonovich Vera,2017