Частоты остатков в протеомах Clostridium perfringens ATCC 13124 и Escherichia coli (штамм K12)

ОрганизмProteome IDЧисло последовательностейЧисло остатков
Clostridium perfringens ATCC 13124UP0000018232873898960
Escherichia coli (штамм K12)UP00000062543061356086

ОстатокДоля в Clostridium perfringens ATCC 13124 Доля в Escherichia coli (штамм K12)Разность долей
I0,09540,06010,0353
K0,09340,04410,0493
L0,09300,1070-0,0138
E0,08110,05760,0235
G0,06640,0737-0,00735
V0,06520,0707-0,00554
N0,06460,03950,0252
S0,06220,05800,00421
D0,05540,05150,00390
A0,05420,0951-0,0410
F0,04630,03890,00743
T0,04630,0540-0,00773
Y0,04030,02850,0119
R0,03310,0551-0,0220
P0,02730,0443-0,0169
M0,02490,0282-0,00330
Q0,01960,0444-0,0248
H0,01290,0227-0,00974
C0,01120,0116-0,000340
W0,007120,01530-0,00819
U0,000003340,000002210,00000112

Комментарий

Три наиболее часто встречающихся остатка в протеоме Clostridium perfringens ATCC 13124 - I (изолейцин), K (лизин) и L (лейцин). Для протеома E. coli - это L (лейцин), A (аланин) и G (глицин). Наиболее редкими для Clostridium perfringens ATCC 13124 являются U (селеноцистеин), W (триптофан) и C (цистеин). Для E. coli - U (селеноцистеин), С (цистеин) и W (триптофан). Таким образом, U, C и W - наиболее редкие для обоих организмов, а L часто встречается и у Clostridium perfringens ATCC 13124, и у E. coli. Наибольшая по абсолютной величине разница в частотах наблюдается для остатков лизина.

Программа compseq

Compseq высчитывает количество уникальных слов заданной длины в последовательности. При этом, в отличие от wordcount, она выдает в выходной файл также предполагаемые и наблюдаемые частоты встречаемости слова.
Синтаксис схож с таковым в wordcount: compseq <имя входного файла> -word <длина слова> <имя выходного файла>.

Выходной файл содержит информацию о длине рассматриваемых слов, общее количество таких слов в последовательности и несколько колонок: само слово (последовательность), сколько раз оно встретилось в файле, наблюдаемая частота встречаемости, предполагаемая частота встречаемости и соотношение этих двух величин. В случае с wordcount, информации в выходном файле значительно меньше. Он содержит только две колонки: само слово и сколько раз оно встретилось в последовательности.

Важно отметить, что команда compseq имеет ограничения на длину слов. Для белков это 4, для нуклеотидных последовательностей 6. Значения в выходном файле, в отличие от wordcount, упорядочены не в порядке убывания, а по алфавиту.

На мой взгляд, для выполнения задания этого практикума было бы удобнее использовать команду compseq, так как при этом последующая обработка данных заняла бы гораздо меньше времени.