Частоты остатков в протеомах Escherichia coli и Methanosarcina acetivorans C2A

Протеом — совокупность всех белков организма. Ниже представлены основные данные о протеомах двух организмов: Escherichia coli и Methanosarcina acetivorans C2A

Methanosarcina acetivorans C2AEscherichia coli (strain K12)
Идентификатор протеомаUP000002487UP000000625
Число последовательностей44684306
Число оснований13923191356086

Таблица 1. Основные данные о протеомах M.acetivorans C2A и E.coli K12

%, E.coli %, M. acetivorans Δ
L 10,6726 9,4057 1,2669
A 9,5154 6,9259 2,5895
G 7,3746 7,2628 0,1118
V 7,0734 6,8425 0,2309
I 6,0103 7,3505 -1,3402
S 5,8023 6,9074 -1,1051
E 5,7628 7,9656 -2,2027
R 5,5110 4,4653 1,0457
T 5,3991 5,4419 -0,0429
D 5,1510 5,3499 -0,1989
Q 4,4401 2,5328 1,9074
P 4,4254 4,0061 0,4193
K 4,4061 6,4976 -2,0915
N 3,9454 4,4741 -0,5287
F 3,8905 4,4337 -0,5432
Y 2,8453 3,7183 -0,8729
M 2,8193 2,4587 0,3606
H 2,2664 1,6585 0,6078
W 1,5312 1,0516 0,4796
C 1,1576 1,2506 -0,0930
U 0,000221 0 0,000221
O 0 0,000503 -0,000503

Таблица 2. Проценты букв в протеомах обоих организмов(упорядочены по убыванию процента у E.Coli)

С помощью программы wordcount в EMBOSS были подсчитаны частоты букв в протеомах. В Excel была составлена сводная таблица по процентам каждой буквы в протеооме и разности букв в исследуемых протеомах.

Согласно полученным данным самым часто встречающимся остатком в обоих протеомах является лейцин(9,41% и 10,67% в протеомах M.acetivorans и E.coli соответственно). Далее наблюдаются различия в наиболее часто встречающихся остатках. Если у E.coli за лейцином следуют аланин(9,52%) и глицин(7,37%), то у M.acetivorans это глутамат(7,97%) и изолейцин(7,35%). В число самых редких остатков входят у обоих организмов цистеин,триптофан и гистидин.У E.coli есть небольшое количество селеноцистеина, а у M.acetivorans - пирролизина.Наибольшая разница наблюдается для остатков аланина.

Различия программ compseq и wordcount

Что делает каждая из этих программ:

wordcount — выделяет и считает количество уникальных слов последовательности. Выходной файл включает 2 столбца: слово данной длины и его количество.

compseq - рассчитывет состав уникальных слов в последовательности. Выходной файл включает 5 столбцов: словодданной длины, его количество, наблюдаемая частота(отношение количества слова к общему количеству слов), ожидаемая частота (в предположении что все слова данной длины встречаются с равной вероятностью) и отношение наблюдаемой и ожидаемой частот. В конце выводится строчка "Other", показывающая количество нестандартных остатков, встречающиихся в последовательности.

Стоит отметить, что программа compseq содержит больше параметров, чем wordcount.

Конечно, программа compseq более многофункциональна, выводит больше данных о частотах слов в последовательноси. Однако необходимости в этих данных для выполнения задания нет (если не считать столбец с рассчитанными частотами слов, но ведь все равно нужно обращаться к Excel, чтобы составить сводную таблицу и рассчитать разность процентов). Поэтому разумнее в данном случае пользоватьсся программой wordcount.


© Васильева Елена, 2015