Частоты остатков в протеомах Clostridium perfringens ATCC 13124 и Escherichia coli (штамм K12)

Организм	Proteome ID	Число
Clostridium perfringens ATCC 13124	UP0
Escherichia coli (штамм K12)	UP00

Остаток	Доля в Clostridium	Доля в Escherichia coli (штамм K12)	Р
I	0,0954	0,0601	0,0353
K	0,0934	0,0441	0,0493
L	0,0930	0,1070	-0,0138
E	0,0811	0,0576	0,0235
G	0,0664	0,0737	-0,00735
V	0,0652	0,0707	-0,00554
N	0,0646	0,0395	0,0252
S	0,0622	0,0580	0,00421
D	0,0554	0,0515	0,00390
A	0,0542	0,0951	-0,0410
F	0,0463	0,0389	0,00743
T	0,0463	0,0540	-0,00773
Y	0,0403	0,0285	0,0119
R	0,0331	0,0551	-0,0220
P	0,0273	0,0443	-0,0169
M	0,0249	0,0282	-0,00330
Q	0,0196	0,0444	-0,0248
H	0,0129	0,0227	-0,00974
C	0,0112	0,0116	-0,000340
W	0,00712	0,01530	-0,00819
U	0,00000334	0,00000221	0,00000112

последовательностейЧисло остатков 000018232873898960 000062543061356086 perfringens ATCC 13124 азность долей

Комментарий

Три наиболее часто встречающихся остатка в протеоме Clostridium perfringens ATCC 13124 - I (изолейцин), K (лизин) и L (лейцин). Для протеома E. coli - это L (лейцин), A (аланин) и G (глицин). Наиболее редкими для Clostridium perfringens ATCC 13124 являются U (селеноцистеин), W (триптофан) и C (цистеин). Для E. coli - U (селеноцистеин), С (цистеин) и W (триптофан). Таким образом, U, C и W - наиболее редкие для обоих организмов, а L часто встречается и у Clostridium perfringens ATCC 13124, и у E. coli. Наибольшая по абсолютной величине разница в частотах наблюдается для остатков лизина.

Программа compseq

Compseq высчитывает количество уникальных слов заданной длины в последовательности. При этом, в отличие от wordcount, она выдает в выходной файл также предполагаемые и наблюдаемые частоты встречаемости слова.
Синтаксис схож с таковым в wordcount: compseq <имя входного файла> -word <длина слова> <имя выходного файла>.

Выходной файл содержит информацию о длине рассматриваемых слов, общее количество таких слов в последовательности и несколько колонок: само слово (последовательность), сколько раз оно встретилось в файле, наблюдаемая частота встречаемости, предполагаемая частота встречаемости и соотношение этих двух величин. В случае с wordcount, информации в выходном файле значительно меньше. Он содержит только две колонки: само слово и сколько раз оно встретилось в последовательности.

Важно отметить, что команда compseq имеет ограничения на длину слов. Для белков это 4, для нуклеотидных последовательностей 6. Значения в выходном файле, в отличие от wordcount, упорядочены не в порядке убывания, а по алфавиту.

На мой взгляд, для выполнения задания этого практикума было бы удобнее использовать команду compseq, так как при этом последующая обработка данных заняла бы гораздо меньше времени.

Учебный сайт Карпухиной Анны

Частоты остатков в протеомах Clostridium perfringens ATCC 13124 и Escherichia coli (штамм K12)

Комментарий

Программа compseq