Частоты остатков в протеомах

Частоты остатков в протеомах Escherichia coli и Methanosarcina acetivorans C2A

Протеом — совокупность всех белков организма. Ниже представлены основные данные о протеомах двух организмов: Escherichia coli и Methanosarcina acetivorans C2A

	Methanosarcina acetivorans C2A	Escherichia coli (strain K12)
Идентификатор протеома	UP000002487	UP000000625
Число последовательностей	4468	4306
Число оснований	1392319	1356086

Таблица 1. Основные данные о протеомах M.acetivorans C2A и E.coli K12

	%, E.coli	%, M. acetivorans	Δ
L	10,6726	9,4057	1,2669
A	9,5154	6,9259	2,5895
G	7,3746	7,2628	0,1118
V	7,0734	6,8425	0,2309
I	6,0103	7,3505	-1,3402
S	5,8023	6,9074	-1,1051
E	5,7628	7,9656	-2,2027
R	5,5110	4,4653	1,0457
T	5,3991	5,4419	-0,0429
D	5,1510	5,3499	-0,1989
Q	4,4401	2,5328	1,9074
P	4,4254	4,0061	0,4193
K	4,4061	6,4976	-2,0915
N	3,9454	4,4741	-0,5287
F	3,8905	4,4337	-0,5432
Y	2,8453	3,7183	-0,8729
M	2,8193	2,4587	0,3606
H	2,2664	1,6585	0,6078
W	1,5312	1,0516	0,4796
C	1,1576	1,2506	-0,0930
U	0,000221	0	0,000221
O	0	0,000503	-0,000503

Таблица 2. Проценты букв в протеомах обоих организмов(упорядочены по убыванию процента у E.Coli)

С помощью программы wordcount в EMBOSS были подсчитаны частоты букв в протеомах. В Excel была составлена сводная таблица по процентам каждой буквы в протеооме и разности букв в исследуемых протеомах.

Согласно полученным данным самым часто встречающимся остатком в обоих протеомах является лейцин(9,41% и 10,67% в протеомах M.acetivorans и E.coli соответственно). Далее наблюдаются различия в наиболее часто встречающихся остатках. Если у E.coli за лейцином следуют аланин(9,52%) и глицин(7,37%), то у M.acetivorans это глутамат(7,97%) и изолейцин(7,35%). В число самых редких остатков входят у обоих организмов цистеин,триптофан и гистидин.У E.coli есть небольшое количество селеноцистеина, а у M.acetivorans - пирролизина.Наибольшая разница наблюдается для остатков аланина.

Различия программ compseq и wordcount

Что делает каждая из этих программ:

wordcount — выделяет и считает количество уникальных слов последовательности. Выходной файл включает 2 столбца: слово данной длины и его количество.

compseq - рассчитывет состав уникальных слов в последовательности. Выходной файл включает 5 столбцов: словодданной длины, его количество, наблюдаемая частота(отношение количества слова к общему количеству слов), ожидаемая частота (в предположении что все слова данной длины встречаются с равной вероятностью) и отношение наблюдаемой и ожидаемой частот. В конце выводится строчка "Other", показывающая количество нестандартных остатков, встречающиихся в последовательности.

Стоит отметить, что программа compseq содержит больше параметров, чем wordcount.

Конечно, программа compseq более многофункциональна, выводит больше данных о частотах слов в последовательноси. Однако необходимости в этих данных для выполнения задания нет (если не считать столбец с рассчитанными частотами слов, но ведь все равно нужно обращаться к Excel, чтобы составить сводную таблицу и рассчитать разность процентов). Поэтому разумнее в данном случае пользоватьсся программой wordcount.

Учебный сайт Васильевой Елены

2-й семестр

Частоты остатков в протеомах Escherichia coli и Methanosarcina acetivorans C2A

Различия программ compseq и wordcount