EMBOSS и протеомы

Общая информация о протеоме:

Организм:Escherichia coli K12Salmonella typhimurium LT2
Идентификатор протеомов:UP000000625UP000001014
Количество последовательностей:43134533
Количество аминокислот:13516191421441

Единая таблица процентов букв в обоих организмах:

Остаток Процент остатка в протеоме Escherichia coli K12 Процент остатка в протеоме Salmonella typhimurium LT2 Разность процентов
L 0,1068 0,1065 0,0003
A 0,0951 0,0977 -0,0026
G 0,0737 0,0737 0
V 0,0707 0,0702 0,0005
I 0,0601 0,0593 0,0008
S 0,058 0,0582 -0,0002
R 0,0552 0,0565 -0,0013
E 0,0577 0,056 0,0017
T 0,0539 0,0549 -0,001
D 0,0515 0,0521 -0,0006
P 0,0443 0,0447 -0,0004
Q 0,0444 0,0439 0,0005
K 0,0441 0,0431 0,001
F 0,0389 0,0387 0,0002
N 0,0394 0,0381 0,0013
Y 0,0284 0,0288 -0,0004
M 0,0282 0,0278 0,0004
H 0,0227 0,0229 -0,0002
W 0,0153 0,0152 0,0001
C 0,0116 0,0116 0

Таблица с расчётами

Лейцин, Аланин, Глицин - три самых частых остатка у обоих организмов.

Гистидин, Триптофан, Цистеин - три самых редких остатка у обоих организмов.

Разницы: самая большая в пользу E. coli у Глутаминовой кислоты (0,0017), самая большая в пользу Salmonella typhimurium у Аланина (0,0026)

Справка для пользователя о разнице между программами wordcount и compseq

Команда wordcount расставляет аминокислотные остатки в порядке убывания их количества и показывает это количество.

Команда compseq выписывает названия последовательностей, расставляет аминокислотные остатки в алфавитном порядке, показывает общее количество остатков, а также процент каждого остатка в протеоме.

Для выполнения задания 1 полезны обе команды, так как в нём необходимо расположить остатки в порядке убывания, узнать общее количество остатков, а также процент каждого остатка в протеоме. Первое удобно делать командой wordcount, остальное - командой compseq.