Параметр | Протеом E.coli | Протеом Mycobacterium sp. JLS |
Идентификатор протеома Proteome ID | UP000000625 | UP000002152 |
Число последовательностей | 4306 | 5695 |
Число остатков | 1356086 | 1899582 |
а/к | MYCSJLS | E.coli | %MYCJLS | %E.coli | %def |
A | 249155 | 129037 | 13,12% | 9,52% | 3,60% |
L | 184653 | 144730 | 9,72% | 10,67% | 0,95% |
G | 168112 | 100006 | 8,85% | 7,37% | 1,48% |
V | 167677 | 95922 | 8,83% | 7,07% | 1,75% |
R | 143602 | 74734 | 7,56% | 5,51% | 2,05% |
D | 122604 | 69852 | 6,45% | 5,15% | 1,30% |
T | 115673 | 73216 | 6,09% | 5,40% | 0,69% |
P | 112600 | 60012 | 5,93% | 4,43% | 1,50% |
E | 101788 | 78149 | 5,36% | 5,76% | 0,40% |
S | 99641 | 78684 | 5,25% | 5,80% | 0,56% |
I | 76902 | 81505 | 4,05% | 6,01% | 1,96% |
F | 56995 | 52758 | 3,00% | 3,89% | 0,89% |
Q | 55063 | 60212 | 2,90% | 4,44% | 1,54% |
H | 42298 | 30734 | 2,23% | 2,27% | 0,04% |
N | 40140 | 53503 | 2,11% | 3,95% | 1,83% |
Y | 40087 | 38585 | 2,11% | 2,85% | 0,74% |
K | 39195 | 59750 | 2,06% | 4,41% | 2,34% |
M | 38895 | 38232 | 2,05% | 2,82% | 0,77% |
W | 29024 | 20764 | 1,53% | 1,53% | 0,00% |
C | 15478 | 15698 | 0,81% | 1,16% | 0,34% |
U | 3 | 0,00% | 0,0002% | 0,0002% | |
Всего | 1899582 | 1356086 |
В протеоме и Mycobacterium JLS. и E.coli три самых частых кислоты - это аланин, глицин, лейцин. Редко встречаются в протеоме Mycobacterium sp. JLS остатки цистеина, триптофана и метионина, в протеоме E.coli - остатки селеноцистеина, триптофана и цистеина.
Программа compseq
Compseq высчитывает количество уникальных слов заданной длины в последовательности. При этом, в отличие от wordcount, она выдает в выходной файл также предполагаемые и наблюдаемые частоты встречаемости слова. Синтаксис схож с wordcount: compseq <имя входного файла> -word <длина слова> <имя выходного файла>. Выходной файл содержит информацию о длине рассматриваемых слов, общее количество таких слов в последовательности и несколько колонок: само слово (последовательность), сколько раз оно встретилось в файле, наблюдаемая частота встречаемости, предполагаемая частота встречаемости и соотношение этих двух величин. В случае с wordcount, информации в выходном файле значительно меньше. Он содержит только две колонки: само слово и сколько раз оно встретилось в последовательности.
Программа compseq имеет ограничения на длину слов: для белков это 4, для нуклеотидных последовательностей 6. Значения в выходном файле, в отличие от wordcount, упорядочены не в порядке убывания, а по алфавиту.
Я думаю, что для выполнения задания этого практикума подходят обе программы, потому что, в целом, обе программы выполняют поставленную практикумом задачу одинаково.
Источники