Учебный сайт
Заиры Сефербековой

Частоты остатков в протеомах Escherichia coli K12 и Thermococcus kodakaraensis KOD1.

Таблица 1. Основная информация о протеомах.
Остаток (одно-буквенный код) % в протеоме T.kodaka-raensis % в протеоме E. coli Разность %
L 10,47 10,67 0,2
E 8,83 5,76 3,07
V 8,29 7,07 1,22
G 7,58 7,37 0,21
A 7,42 9,52 2,1
I 6,96 6,01 0,95
K 6,87 4,41 2,46
R 5,84 5,51 0,33
S 5,05 5,8 0,75
D 4,73 5,15 0,42
T 4,62 5,4 0,78
P 4,39 4,43 0,04
F 4,33 3,89 0,44
Y 3,83 2,85 0,98
N 3,21 3,95 0,74
M 2,34 2,82 0,48
Q 1,82 4,44 2,62
H 1,59 2,27 0,68
W 1,3 1,53 0,23
C 0,53 1,16 0,63
U - 0,0002 -



В данном обзоре приведена сравнительная характеристика протеомов Thermococcus kodakaraensis KOD1 (Proteom ID: UP000000536) и Escherichia coli K12 (Proteom ID: UP000000625); 2.301 последовательностей и 637.680 а.о., 4.306 последовательностей и 1.356.086 а.о. соответственно в каждом из протеомов.
В таблице 1 указано содержание остатков аминокислот в протеомах в процентах и разница в содержании в разных геномах. Можно заметить, что за некоторым исключением частота встречаемости большинства аминокислотных остатков примерно одинакова. Самым часто встречающимся в обоих случаях является лейцин (L). Однако дальше мы видим различия: в протеоме T. kodakaraensis следующими по частоте встречаемости являются глутамат (Е) и валин (V), в то время как у E. coli они на 5-м и 4-м местах соответственно. Если не принимать во внимание селеноцистеин, которого нет в протеоме T. kodakaraensis, самыми редкими в обоих случаях оказались цистеин (С), триптофан (W) и гистидин (Н). Самая большая разность по абсолютной величине оказалась у аланина (А): 81.730 а.о., а по процентному содержанию — у глутамата: 3,07 %. Интересно, что у аланина разность по абсолютной величине составляет 77.954 а.о. (2-е место), в то время как по проценту — всего 0,2%.

5(*) Программа compseq:
[-sequence] — Входной файл с последовательностью
-word — Длина слова (н-мер), которое нужно посчитать. Например, для кодона — 3.
[-outfile] — Файл с результатом.
-frame — Обычно программа считает количество вхождений, "передвигая" рамку. Но можно задать другое значение, таким образом изменив рамку и, например, посчитать количество неперекрывающихся вхождений.
и др.
Примечания: в выходном файле много столбцов и дополнительной информации (общее количество слов, ожидаемая встречаемость (эталон можно задать файлом на вход), реальная, их отношение). Слова отсортированы по алфавиту.

Программа wordcount:
[-sequence] — Входной файл с последовательностью
-wordsize — Длина слова (н-мер), которое нужно посчитать.
[-outfile] — Файл с результатом.
-mincount — Минимальное учитываемое количество вхождений.
и др.
Примечания:в выходном файле два столбца, разделенных табулятором: слово — количество вхождений. Удобно для последующего анализа с помощью Excel. Слова отсортированы по убыванию встречаемости.

Первая программа, очевидно, лучше, так как дает больше информации (причем довольно актуальной), больше возможностей для задания условий поиска и, как мне показалось, работает она немного быстрее. Однако если нужно импортировать небольшую таблицу с двумя столбцами и без лишней информации, то можно использовать wordcount.

Наверх ^


Примечания:

Вся информация взята с сайта UniProt.