Частоты остатков в протеомах Clostridium perfringens ATCC 13124 и Escherichia coli (штамм K12)
Организм | Proteome ID | Число последовательностей | Число остатков |
---|---|---|---|
Clostridium perfringens ATCC 13124 | UP000001823 | 2873 | 898960 |
Escherichia coli (штамм K12) | UP000000625 | 4306 | 1356086 |
Остаток | Доля в Clostridium perfringens ATCC 13124 | Доля в Escherichia coli (штамм K12) | Разность долей |
---|---|---|---|
I | 0,0954 | 0,0601 | 0,0353 |
K | 0,0934 | 0,0441 | 0,0493 |
L | 0,0930 | 0,1070 | -0,0138 |
E | 0,0811 | 0,0576 | 0,0235 |
G | 0,0664 | 0,0737 | -0,00735 |
V | 0,0652 | 0,0707 | -0,00554 |
N | 0,0646 | 0,0395 | 0,0252 |
S | 0,0622 | 0,0580 | 0,00421 |
D | 0,0554 | 0,0515 | 0,00390 |
A | 0,0542 | 0,0951 | -0,0410 |
F | 0,0463 | 0,0389 | 0,00743 |
T | 0,0463 | 0,0540 | -0,00773 |
Y | 0,0403 | 0,0285 | 0,0119 |
R | 0,0331 | 0,0551 | -0,0220 |
P | 0,0273 | 0,0443 | -0,0169 |
M | 0,0249 | 0,0282 | -0,00330 |
Q | 0,0196 | 0,0444 | -0,0248 |
H | 0,0129 | 0,0227 | -0,00974 |
C | 0,0112 | 0,0116 | -0,000340 |
W | 0,00712 | 0,01530 | -0,00819 |
U | 0,00000334 | 0,00000221 | 0,00000112 |
Комментарий
Три наиболее часто встречающихся остатка в протеоме Clostridium perfringens ATCC 13124 - I (изолейцин), K (лизин) и L (лейцин). Для протеома E. coli - это L (лейцин), A (аланин) и G (глицин). Наиболее редкими для Clostridium perfringens ATCC 13124 являются U (селеноцистеин), W (триптофан) и C (цистеин). Для E. coli - U (селеноцистеин), С (цистеин) и W (триптофан). Таким образом, U, C и W - наиболее редкие для обоих организмов, а L часто встречается и у Clostridium perfringens ATCC 13124, и у E. coli. Наибольшая по абсолютной величине разница в частотах наблюдается для остатков лизина.
Программа compseq
Compseq высчитывает количество уникальных слов заданной длины в последовательности. При этом,
в отличие от wordcount, она выдает в выходной файл также предполагаемые и наблюдаемые
частоты встречаемости слова.
Синтаксис схож с таковым в wordcount: compseq <имя входного файла> -word <длина слова>
<имя выходного файла>.
Выходной файл содержит информацию о длине рассматриваемых слов, общее количество
таких слов в последовательности и несколько колонок: само
слово (последовательность), сколько раз оно встретилось в файле, наблюдаемая частота встречаемости,
предполагаемая частота встречаемости и соотношение этих двух величин. В случае с wordcount,
информации в выходном файле значительно меньше. Он содержит только две колонки: само слово
и сколько раз оно встретилось в последовательности.
Важно отметить, что команда compseq имеет ограничения на длину слов. Для белков это 4, для нуклеотидных
последовательностей 6. Значения в выходном файле, в отличие от wordcount, упорядочены не в порядке
убывания, а по алфавиту.
На мой взгляд, для выполнения задания этого практикума было бы удобнее использовать команду
compseq, так как при этом последующая обработка данных заняла бы гораздо меньше времени.