Частоты остатков в протеомах
Escherichia coli(strain K12) | Lactobacillus delbrueckii subsp. bulgaricus | |
Идентификаторы протеомов | UP000000625 | UP000001259 |
Количество последовательностей | 4313 | 1519 |
Количество аминокислот | 1351622 | 450174 |
Таблица с частотами остатков в протеомах
Остаток | Количество у Е.coli | Количество у L.delbrueckii | % в протеоме E.coli (K12) | % в протеоме L.delbrueckii | Разность процентов |
L | 144296 | 46120 | 10,68% | 10,24% | 0,43% |
A | 128560 | 38895 | 9,51% | 8,64% | 0,87% |
K | 59549 | 32786 | 4,41% | 7,28% | -2,88% |
V | 95601 | 31403 | 7,07% | 6,98% | 0,10% |
G | 99621 | 30644 | 7,37% | 6,81% | 0,56% |
I | 81230 | 28222 | 6,01% | 6,27% | -0,26% |
S | 78349 | 27917 | 5,80% | 6,20% | -0,40% |
E | 77934 | 27704 | 5,77% | 6,15% | -0,39% |
D | 69597 | 26743 | 5,15% | 5,94% | -0,79% |
T | 72907 | 23352 | 5,39% | 5,19% | 0,21% |
R | 74591 | 19599 | 5,52% | 4,35% | 1,16% |
Q | 60058 | 19070 | 4,44% | 4,24% | 0,21% |
F | 52614 | 18845 | 3,89% | 4,19% | -0,29% |
N | 53212 | 18731 | 3,94% | 4,16% | -0,22% |
Y | 38449 | 17024 | 2,84% | 3,78% | -0,94% |
P | 59854 | 15840 | 4,43% | 3,52% | 0,91% |
M | 38150 | 11575 | 2,82% | 2,57% | 0,25% |
H | 30651 | 8209 | 2,27% | 1,82% | 0,44% |
W | 20705 | 4497 | 1,53% | 1,00% | 0,53% |
C | 15691 | 2998 | 1,16% | 0,67% | 0,49% |
U | 3 |
Комментарии к таблице: как видно из таблицы, 3 самых редких остатка у E.coli и L.delbrueckii совпадают (цистеин, триптофан, гистидин, начиная с самого редкого). У E.coli в протеоме также присутствует 3 селеноцистеина, однако их мы не учитываем. Что касается самых частых остатков, то лейцин и аланин лидируют у обеих бактерий (лейцин встречается почти с одинаковой частотой, частота аланина у Е.coli на 0,87% выше). Самое значительное различие наблюдается во встречаемости лизина: у L.delbrueckii он третий по популярности, от общего протеома составляет 7,28%, что на 2,88% больше, чем у кишечной палочки. У E.coli третье по встречаемости место занимает глицин, тогда как у сравниваемой бактерии он пятый. В протеоме E.coli значительно чаще встречаем аргинин (на 1,16%) и пролин (на 0,91%). L.debrueckii зато выигрывает по количеству Тирозина (на 0,94%).
Любопытно, что преобладание лизина у одной бактерии компенсируется преобладанием аргинина у другой (это объяснимо: аминокислоты похожи по свойствам, обе основные, положительно заряженые). Протеом L.delbrueckii лидирует по количеству заряженных аминокислот (суммарно значительно больше как положительно заряженных, так и отрицательно заряженных остатков).
Сравнение программ wordcount и compseq
Обе программы считают количество уникальных слов во введённой последовательности. Обе программы в качестве обязательных аргументов запрашивают последовательность, длину слова и выводной файл. Вывод compseq более полный и подробный, слова располагаются в алфавитном порядке, подсчитывается их общее количество и частота, а также частота в том случае, если бы всех слов было поровну ожидаемая частота). В wordcount есть всего одна дополнительная опция (не считая help) - mincount. Это порог по встречаемости,который должно перейти слово, чтобы попасть в итоговый отчёт программы. В compseq есть опции infile (ожидаемые частоты берутся из одного из предыдущих выводов этой же программы), frame (при ненулевом значении будет сдвигать рамку поиска не на 1 символ, а на большее количество), [no]ignorebz (для подсчёта нестандартных букв для обозначения аспарагина и аспарагиновой кислоты - B и Глутамина и Глутаминовой кислоты - Z), reverse (если хотим подсчитать количество слов также в комплементарной перевёрнутой последовательности), calcfreq (частоты слов будут приравнены к ожидаемым частотам отдельных аминокислотных остатков или нуклеотидов), [no]zerocount. Для данной задачи вполне хватает функционала программы wordcount, однако compseq была бы предпочтительней, потому что она сразу выводит частоты слов и, более того, при помощи опции infile можно сразу же сравнить эти частоты в E.coli и в своей бактерии.
© Быкова Даша, 2018