В этой таблице представлены некоторые сравнительные характеристики бактерий Escherichia coli (штамм K12) и Burkholderia sp. штамма CCGE 1001.
Организм | ID протеома | Количество белков | Количество аминокислотных остатков |
Escherichia coli | UP000000625 | 4306 | 1356195 |
Burkholderia sp. | UP000007095 | 6403 | 2063536 |
Другая таблица описывает частоты аминокислот в двух протеомах.
Аминокислота | % у Burkholderia | % у E. coli | Разница |
A | 12,96 | 9,51 | 3,45 |
L | 10,21 | 10,67 | -0,47 |
G | 8,16 | 7,37 | 0,78 |
V | 7,70 | 7,07 | 0,63 |
R | 7,04 | 5,51 | 1,53 |
S | 5,77 | 5,80 | -0,03 |
T | 5,33 | 5,40 | -0,07 |
D | 5,31 | 5,15 | 0,16 |
E | 5,20 | 5,76 | -0,56 |
P | 5,08 | 4,43 | 0,66 |
I | 4,59 | 6,01 | -1,42 |
F | 3,67 | 3,89 | -0,23 |
Q | 3,60 | 4,44 | -0,84 |
K | 3,10 | 4,41 | -1,31 |
N | 2,86 | 3,95 | -1,09 |
Y | 2,41 | 2,85 | -0,44 |
H | 2,36 | 2,27 | 0,09 |
M | 2,35 | 2,82 | -0,47 |
W | 1,36 | 1,53 | -0,18 |
C | 0,95 | 1,16 | -0,21 |
Наиболее часто в этих двух протеомах встречаются одинаковые аминокислоты: аланин, лейцин и глицин, но преимущественно встречающийся у E. coli аланин находится на втором месте по частоте у Burkholderia.
Малочисленные остатки совпадают в меньшей степени. На первом и втором месте по редкости цистеин и триптофан, а на третьем - метионин у Burkholderia и гистидин у E. coli.
Наибольшая разница в частоте аминокислот приходится на аланин, а наименьшая - на серин.
Пакет emboss содержит программы с пересекающимися функциями, а wordcount и compseq - всего лишь один из примеров такой вырожденности. При вызове обе программы получат на вход имя файла, содержащего анализируемую последовательность(последовательности), количество букв в слове(уникальном сочетании символов) и выходной файл. Wordcount записывает в него таблицу из двух колонок: все присутствующие в тексте слова заданной длины, упорядоченные по количеству встреч; количество упоминаний. Compseq создает таблицу с большим количеством полезных данных. В файл записываются название последовательностей, данные на вход, строка с заданной длиной слова и общее количество символов в последовательности. В таблице есть заголовки и колонки с ожидаемой частотой(при условии случайного распределения), наблюдаемой частотой и их взаимосвязью. Стоит заметить, что compseq при задании длины слова больше 1 выводит все возможные сочетания, а не только присутствующие в исходной последовательности. Для работы, аналогичной заданию 1 я бы выбрал wordcount из-за простоты интегрирования результатов этой программы в электронную таблицу для многофакторного анализа и графического представления.