Работа с протеомами с помощью пакета Emboss

Сравнение протеомов бактерий

В этой таблице представлены некоторые сравнительные характеристики бактерий Escherichia coli (штамм K12) и Burkholderia sp. штамма CCGE 1001.

Организм ID протеома Количество белков Количество аминокислотных остатков

Escherichia coli UP000000625 4306 1356195

Burkholderia sp. UP000007095 6403 2063536

Другая таблица описывает частоты аминокислот в двух протеомах.
Аминокислота % у Burkholderia % у E. coli Разница

A 12,96 9,51 3,45

L 10,21 10,67 -0,47

G 8,16 7,37 0,78

V 7,70 7,07 0,63

R 7,04 5,51 1,53

S 5,77 5,80 -0,03

T 5,33 5,40 -0,07

D 5,31 5,15 0,16

E 5,20 5,76 -0,56

P 5,08 4,43 0,66

I 4,59 6,01 -1,42

F 3,67 3,89 -0,23

Q 3,60 4,44 -0,84

K 3,10 4,41 -1,31

N 2,86 3,95 -1,09

Y 2,41 2,85 -0,44

H 2,36 2,27 0,09

M 2,35 2,82 -0,47

W 1,36 1,53 -0,18

C 0,95 1,16 -0,21

Таблица сгенерирована средствами Excel. Здесь находится вспомогательный файл, в котором происходила обработка выданных wordcount данных.

Наиболее часто в этих двух протеомах встречаются одинаковые аминокислоты: аланин, лейцин и глицин, но преимущественно встречающийся у E. coli аланин находится на втором месте по частоте у Burkholderia.
Малочисленные остатки совпадают в меньшей степени. На первом и втором месте по редкости цистеин и триптофан, а на третьем - метионин у Burkholderia и гистидин у E. coli.
Наибольшая разница в частоте аминокислот приходится на аланин, а наименьшая - на серин.

Сопоставление команд wordcount и compseq

Пакет emboss содержит программы с пересекающимися функциями, а wordcount и compseq - всего лишь один из примеров такой вырожденности. При вызове обе программы получат на вход имя файла, содержащего анализируемую последовательность(последовательности), количество букв в слове(уникальном сочетании символов) и выходной файл. Wordcount записывает в него таблицу из двух колонок: все присутствующие в тексте слова заданной длины, упорядоченные по количеству встреч; количество упоминаний. Compseq создает таблицу с большим количеством полезных данных. В файл записываются название последовательностей, данные на вход, строка с заданной длиной слова и общее количество символов в последовательности. В таблице есть заголовки и колонки с ожидаемой частотой(при условии случайного распределения), наблюдаемой частотой и их взаимосвязью. Стоит заметить, что compseq при задании длины слова больше 1 выводит все возможные сочетания, а не только присутствующие в исходной последовательности. Для работы, аналогичной заданию 1 я бы выбрал wordcount из-за простоты интегрирования результатов этой программы в электронную таблицу для многофакторного анализа и графического представления.

Организм	ID протеома	Количество белков	Количество аминокислотных остатков
Escherichia coli	UP000000625	4306	1356195
Burkholderia sp.	UP000007095	6403	2063536

Аминокислота	% у Burkholderia	% у E. coli	Разница
A	12,96	9,51	3,45
L	10,21	10,67	-0,47
G	8,16	7,37	0,78
V	7,70	7,07	0,63
R	7,04	5,51	1,53
S	5,77	5,80	-0,03
T	5,33	5,40	-0,07
D	5,31	5,15	0,16
E	5,20	5,76	-0,56
P	5,08	4,43	0,66
I	4,59	6,01	-1,42
F	3,67	3,89	-0,23
Q	3,60	4,44	-0,84
K	3,10	4,41	-1,31
N	2,86	3,95	-1,09
Y	2,41	2,85	-0,44
H	2,36	2,27	0,09
M	2,35	2,82	-0,47
W	1,36	1,53	-0,18
C	0,95	1,16	-0,21