EMBOSS и протеомы

Частоты остатков в протеомах

Из базы данных Uniprot были скачаны протеомы Escherichia coli (штамма K12) и Cellvibrio japonicus (штамма Ueda107) в FASTA-формате. Оба генома референсные.
Число последовательностей в каждом протеоме было подсчитано с помощью функции grep: grep -c '^>' filename.fasta
Число аминокислотных остатков было подсчитано с помощью программы wordcount из пакета EMBOSS: wordcount filename.txt -wordsize=1 -outfile='try.txt'
Результаты рассчетов представлены в таблице 1.
Затем были рассчитано содержание (в процентах) каждого аминокислотного остатка с помощью функции на Python: Скачать скрипт
Результаты рассчетов представлены в таблице 2.

Таблица 1. Сравнение числа последовательностей и аминокислот в протеомах.
Организм Escherichia coli Cellvibrio japonicus
Индентификатор протеома UP000000625 UP000001036
Число последовательностей 4352 3711
Число аминокислот 1353357 1367215

Таблица 2. Сравнение содержания аминокислот в протеомах.
Аминокислотный остаток Процент в протеоме C. japonicus Процент в протеоме E. coli Разность
L 10.68 10.68 0.00
A 9.67 9.51 0.17
G 7.34 7.37 -0.02
V 6.79 7.07 -0.28
S 6.54 5.80 0.74
I 5.66 6.01 -0.35
R 5.57 5.52 0.05
D 5.53 5.15 0.38
E 5.50 5.76 -0.26
T 5.38 5.39 -0.01
Q 4.75 4.44 0.31
P 4.58 4.43 0.15
N 4.10 3.94 0.16
K 3.98 4.41 -0.42
F 3.79 3.89 -0.10
Y 3.19 2.84 0.34
H 2.31 2.27 0.04
M 2.17 2.83 -0.65
W 1.49 1.53 -0.04
C 0.97 1.16 -0.20
U 0.0000 0.0002 0.0002

Содержание аминокислот в протеомах данных двух видов бактерий различается не сильно. Три самых частых остатка в обоих протеомах одинаковые: лейцин, аланин и глицин. Три самых редких остатка в протеоме Cellvibrio japonicus: метионин, триптофан и цистеин. В протеоме Escherichia coli: гистидин, триптофан и цистеин. Кроме того, в протеоме E. coli имеется селеноцистеин, однако его содержание совсем мало.
Самая больша разница в пользу E. coli - для остатка метионина (0.65%). В пользу C.japonicus - для остатка серина (0.74%).

Программа compseq

Программа compseq для каждого слова данной длины подсчитывает число встреч, частоту, ожидаемую частоту и отношение наблюдаемой и ожидаемой частот. По умолчанию считается, что ожидаемые частоты одинаковые для всех слов.
Кроме того, команда выводит несколько первых ID последовательностей и общее число слов данной длины.
Между синтаксисом программ wordcount и compseq существуют некоторые различия. Например, длина слова задается разными опциями: -wordsize в случае wordcount, -word в случае compseq.
Думаю, для выполнения данного задания было бы удобнее использовать именно compseq.