Протеомы.

Параметры протеомов
ПараметрПротеом E.coliПротеом Mycobacterium sp. JLS
Идентификатор протеома Proteome IDUP000000625UP000002152
Число последовательностей43065695
Число остатков13560861899582


Частоты встречаемости остатков в протеомах.
а/к MYCSJLS E.coli %MYCJLS %E.coli %def
A 249155 129037 13,12% 9,52% 3,60%
L 184653 144730 9,72% 10,67% 0,95%
G 168112 100006 8,85% 7,37% 1,48%
V 167677 95922 8,83% 7,07% 1,75%
R 143602 74734 7,56% 5,51% 2,05%
D 122604 69852 6,45% 5,15% 1,30%
T 115673 73216 6,09% 5,40% 0,69%
P 112600 60012 5,93% 4,43% 1,50%
E 101788 78149 5,36% 5,76% 0,40%
S 99641 78684 5,25% 5,80% 0,56%
I 76902 81505 4,05% 6,01% 1,96%
F 56995 52758 3,00% 3,89% 0,89%
Q 55063 60212 2,90% 4,44% 1,54%
H 42298 30734 2,23% 2,27% 0,04%
N 40140 53503 2,11% 3,95% 1,83%
Y 40087 38585 2,11% 2,85% 0,74%
K 39195 59750 2,06% 4,41% 2,34%
M 38895 38232 2,05% 2,82% 0,77%
W 29024 20764 1,53% 1,53% 0,00%
C 15478 15698 0,81% 1,16% 0,34%
U 3 0,00% 0,0002% 0,0002%
Всего 1899582 1356086


В протеоме и Mycobacterium JLS. и E.coli три самых частых кислоты - это аланин, глицин, лейцин. Редко встречаются в протеоме Mycobacterium sp. JLS остатки цистеина, триптофана и метионина, в протеоме E.coli - остатки селеноцистеина, триптофана и цистеина.

Программа compseq

Compseq высчитывает количество уникальных слов заданной длины в последовательности. При этом, в отличие от wordcount, она выдает в выходной файл также предполагаемые и наблюдаемые частоты встречаемости слова. Синтаксис схож с wordcount: compseq <имя входного файла> -word <длина слова> <имя выходного файла>. Выходной файл содержит информацию о длине рассматриваемых слов, общее количество таких слов в последовательности и несколько колонок: само слово (последовательность), сколько раз оно встретилось в файле, наблюдаемая частота встречаемости, предполагаемая частота встречаемости и соотношение этих двух величин. В случае с wordcount, информации в выходном файле значительно меньше. Он содержит только две колонки: само слово и сколько раз оно встретилось в последовательности.

Программа compseq имеет ограничения на длину слов: для белков это 4, для нуклеотидных последовательностей 6. Значения в выходном файле, в отличие от wordcount, упорядочены не в порядке убывания, а по алфавиту.

Я думаю, что для выполнения задания этого практикума подходят обе программы, потому что, в целом, обе программы выполняют поставленную практикумом задачу одинаково.

Источники