Частоты остатков в протеомах Escherichia coli и Methanosarcina acetivorans C2A
Протеом — совокупность всех белков организма. Ниже представлены основные данные о протеомах двух организмов: Escherichia coli и Methanosarcina acetivorans C2A
Протеом — совокупность всех белков организма. Ниже представлены основные данные о протеомах двух организмов: Escherichia coli и Methanosarcina acetivorans C2A
Methanosarcina acetivorans C2A | Escherichia coli (strain K12) | |
Идентификатор протеома | UP000002487 | UP000000625 |
Число последовательностей | 4468 | 4306 |
Число оснований | 1392319 | 1356086 |
Таблица 1. Основные данные о протеомах M.acetivorans C2A и E.coli K12
%, E.coli | %, M. acetivorans | Δ | |
L | 10,6726 | 9,4057 | 1,2669 |
A | 9,5154 | 6,9259 | 2,5895 |
G | 7,3746 | 7,2628 | 0,1118 |
V | 7,0734 | 6,8425 | 0,2309 |
I | 6,0103 | 7,3505 | -1,3402 |
S | 5,8023 | 6,9074 | -1,1051 |
E | 5,7628 | 7,9656 | -2,2027 |
R | 5,5110 | 4,4653 | 1,0457 |
T | 5,3991 | 5,4419 | -0,0429 |
D | 5,1510 | 5,3499 | -0,1989 |
Q | 4,4401 | 2,5328 | 1,9074 |
P | 4,4254 | 4,0061 | 0,4193 |
K | 4,4061 | 6,4976 | -2,0915 |
N | 3,9454 | 4,4741 | -0,5287 |
F | 3,8905 | 4,4337 | -0,5432 |
Y | 2,8453 | 3,7183 | -0,8729 |
M | 2,8193 | 2,4587 | 0,3606 |
H | 2,2664 | 1,6585 | 0,6078 |
W | 1,5312 | 1,0516 | 0,4796 |
C | 1,1576 | 1,2506 | -0,0930 |
U | 0,000221 | 0 | 0,000221 |
O | 0 | 0,000503 | -0,000503 |
Таблица 2. Проценты букв в протеомах обоих организмов(упорядочены по убыванию процента у E.Coli)
С помощью программы wordcount в EMBOSS были подсчитаны частоты букв в протеомах. В Excel была составлена сводная таблица по процентам каждой буквы в протеооме и разности букв в исследуемых протеомах.
Согласно полученным данным самым часто встречающимся остатком в обоих протеомах является лейцин(9,41% и 10,67% в протеомах M.acetivorans и E.coli соответственно). Далее наблюдаются различия в наиболее часто встречающихся остатках. Если у E.coli за лейцином следуют аланин(9,52%) и глицин(7,37%), то у M.acetivorans это глутамат(7,97%) и изолейцин(7,35%). В число самых редких остатков входят у обоих организмов цистеин,триптофан и гистидин.У E.coli есть небольшое количество селеноцистеина, а у M.acetivorans - пирролизина.Наибольшая разница наблюдается для остатков аланина.
Что делает каждая из этих программ:
wordcount — выделяет и считает количество уникальных слов последовательности. Выходной файл включает 2 столбца: слово данной длины и его количество.
compseq - рассчитывет состав уникальных слов в последовательности. Выходной файл включает 5 столбцов: словодданной длины, его количество, наблюдаемая частота(отношение количества слова к общему количеству слов), ожидаемая частота (в предположении что все слова данной длины встречаются с равной вероятностью) и отношение наблюдаемой и ожидаемой частот. В конце выводится строчка "Other", показывающая количество нестандартных остатков, встречающиихся в последовательности.
Стоит отметить, что программа compseq содержит больше параметров, чем wordcount.
Конечно, программа compseq более многофункциональна, выводит больше данных о частотах слов в последовательноси. Однако необходимости в этих данных для выполнения задания нет (если не считать столбец с рассчитанными частотами слов, но ведь все равно нужно обращаться к Excel, чтобы составить сводную таблицу и рассчитать разность процентов). Поэтому разумнее в данном случае пользоватьсся программой wordcount.
© Васильева Елена, 2015