Частоты остатков в протеомах

Escherichia coli(strain K12) Lactobacillus delbrueckii subsp. bulgaricus
Идентификаторы протеомов UP000000625 UP000001259
Количество последовательностей 4313 1519
Количество аминокислот 1351622 450174

Таблица с частотами остатков в протеомах

Остаток Количество у Е.coli Количество у L.delbrueckii % в протеоме E.coli (K12) % в протеоме L.delbrueckii Разность процентов
L 144296 46120 10,68% 10,24% 0,43%
A 128560 38895 9,51% 8,64% 0,87%
K 59549 32786 4,41% 7,28% -2,88%
V 95601 31403 7,07% 6,98% 0,10%
G 99621 30644 7,37% 6,81% 0,56%
I 81230 28222 6,01% 6,27% -0,26%
S 78349 27917 5,80% 6,20% -0,40%
E 77934 27704 5,77% 6,15% -0,39%
D 69597 26743 5,15% 5,94% -0,79%
T 72907 23352 5,39% 5,19% 0,21%
R 74591 19599 5,52% 4,35% 1,16%
Q 60058 19070 4,44% 4,24% 0,21%
F 52614 18845 3,89% 4,19% -0,29%
N 53212 18731 3,94% 4,16% -0,22%
Y 38449 17024 2,84% 3,78% -0,94%
P 59854 15840 4,43% 3,52% 0,91%
M 38150 11575 2,82% 2,57% 0,25%
H 30651 8209 2,27% 1,82% 0,44%
W 20705 4497 1,53% 1,00% 0,53%
C 15691 2998 1,16% 0,67% 0,49%
U 3      

Комментарии к таблице: как видно из таблицы, 3 самых редких остатка у E.coli и L.delbrueckii совпадают (цистеин, триптофан, гистидин, начиная с самого редкого). У E.coli в протеоме также присутствует 3 селеноцистеина, однако их мы не учитываем. Что касается самых частых остатков, то лейцин и аланин лидируют у обеих бактерий (лейцин встречается почти с одинаковой частотой, частота аланина у Е.coli на 0,87% выше). Самое значительное различие наблюдается во встречаемости лизина: у L.delbrueckii он третий по популярности, от общего протеома составляет 7,28%, что на 2,88% больше, чем у кишечной палочки. У E.coli третье по встречаемости место занимает глицин, тогда как у сравниваемой бактерии он пятый. В протеоме E.coli значительно чаще встречаем аргинин (на 1,16%) и пролин (на 0,91%). L.debrueckii зато выигрывает по количеству Тирозина (на 0,94%).

Любопытно, что преобладание лизина у одной бактерии компенсируется преобладанием аргинина у другой (это объяснимо: аминокислоты похожи по свойствам, обе основные, положительно заряженые). Протеом L.delbrueckii лидирует по количеству заряженных аминокислот (суммарно значительно больше как положительно заряженных, так и отрицательно заряженных остатков).

Сравнение программ wordcount и compseq

Обе программы считают количество уникальных слов во введённой последовательности. Обе программы в качестве обязательных аргументов запрашивают последовательность, длину слова и выводной файл. Вывод compseq более полный и подробный, слова располагаются в алфавитном порядке, подсчитывается их общее количество и частота, а также частота в том случае, если бы всех слов было поровну ожидаемая частота). В wordcount есть всего одна дополнительная опция (не считая help) - mincount. Это порог по встречаемости,который должно перейти слово, чтобы попасть в итоговый отчёт программы. В compseq есть опции infile (ожидаемые частоты берутся из одного из предыдущих выводов этой же программы), frame (при ненулевом значении будет сдвигать рамку поиска не на 1 символ, а на большее количество), [no]ignorebz (для подсчёта нестандартных букв для обозначения аспарагина и аспарагиновой кислоты - B и Глутамина и Глутаминовой кислоты - Z), reverse (если хотим подсчитать количество слов также в комплементарной перевёрнутой последовательности), calcfreq (частоты слов будут приравнены к ожидаемым частотам отдельных аминокислотных остатков или нуклеотидов), [no]zerocount. Для данной задачи вполне хватает функционала программы wordcount, однако compseq была бы предпочтительней, потому что она сразу выводит частоты слов и, более того, при помощи опции infile можно сразу же сравнить эти частоты в E.coli и в своей бактерии.


© Быкова Даша, 2018