Proteomes - Bobrovskiy

Частоты остатков в протеомах

Из базы данных Uniprot были скачаны протеомы Escherichia coli (штамма K12) и Cellvibrio japonicus (штамма Ueda107) в FASTA-формате. Оба генома референсные.
Число последовательностей в каждом протеоме было подсчитано с помощью функции grep: grep -c '^>' filename.fasta
Число аминокислотных остатков было подсчитано с помощью программы wordcount из пакета EMBOSS: wordcount filename.txt -wordsize=1 -outfile='try.txt'
Результаты рассчетов представлены в таблице 1.
Затем были рассчитано содержание (в процентах) каждого аминокислотного остатка с помощью функции на Python: Скачать скрипт
Результаты рассчетов представлены в таблице 2.

Таблица 1. Сравнение числа последовательностей и аминокислот в протеомах.
Организм	Escherichia coli	Cellvibrio japonicus
Индентификатор протеома	UP000000625	UP000001036
Число последовательностей	4352	3711
Число аминокислот	1353357	1367215

Таблица 2. Сравнение содержания аминокислот в протеомах.
Аминокислотный остаток	Процент в протеоме C. japonicus	Процент в протеоме E. coli	Разность
L	10.68	10.68	0.00
A	9.67	9.51	0.17
G	7.34	7.37	-0.02
V	6.79	7.07	-0.28
S	6.54	5.80	0.74
I	5.66	6.01	-0.35
R	5.57	5.52	0.05
D	5.53	5.15	0.38
E	5.50	5.76	-0.26
T	5.38	5.39	-0.01
Q	4.75	4.44	0.31
P	4.58	4.43	0.15
N	4.10	3.94	0.16
K	3.98	4.41	-0.42
F	3.79	3.89	-0.10
Y	3.19	2.84	0.34
H	2.31	2.27	0.04
M	2.17	2.83	-0.65
W	1.49	1.53	-0.04
C	0.97	1.16	-0.20
U	0.0000	0.0002	0.0002

Содержание аминокислот в протеомах данных двух видов бактерий различается не сильно. Три самых частых остатка в обоих протеомах одинаковые: лейцин, аланин и глицин. Три самых редких остатка в протеоме Cellvibrio japonicus: метионин, триптофан и цистеин. В протеоме Escherichia coli: гистидин, триптофан и цистеин. Кроме того, в протеоме E. coli имеется селеноцистеин, однако его содержание совсем мало.
Самая больша разница в пользу E. coli - для остатка метионина (0.65%). В пользу C.japonicus - для остатка серина (0.74%).

Программа compseq

Программа compseq для каждого слова данной длины подсчитывает число встреч, частоту, ожидаемую частоту и отношение наблюдаемой и ожидаемой частот. По умолчанию считается, что ожидаемые частоты одинаковые для всех слов.
Кроме того, команда выводит несколько первых ID последовательностей и общее число слов данной длины.
Между синтаксисом программ wordcount и compseq существуют некоторые различия. Например, длина слова задается разными опциями: -wordsize в случае wordcount, -word в случае compseq.
Думаю, для выполнения данного задания было бы удобнее использовать именно compseq.

EMBOSS и протеомы

Частоты остатков в протеомах

Программа compseq