EMBOSS и протеомы
Частоты остатков в протеомах
Из базы данных Uniprot были скачаны протеомы Escherichia coli (штамма K12) и Cellvibrio japonicus
(штамма Ueda107) в FASTA-формате. Оба генома референсные.
Число последовательностей в каждом протеоме было подсчитано с помощью функции grep: grep -c '^>' filename.fasta
Число аминокислотных остатков было подсчитано с помощью программы wordcount из пакета EMBOSS:
wordcount filename.txt -wordsize=1 -outfile='try.txt'
Результаты рассчетов представлены в таблице 1.
Затем были рассчитано содержание (в процентах) каждого аминокислотного остатка с помощью функции на Python:
Скачать скрипт
Результаты рассчетов представлены в таблице 2.
Организм | Escherichia coli | Cellvibrio japonicus |
---|---|---|
Индентификатор протеома | UP000000625 | UP000001036 |
Число последовательностей | 4352 | 3711 |
Число аминокислот | 1353357 | 1367215 |
Аминокислотный остаток | Процент в протеоме C. japonicus | Процент в протеоме E. coli | Разность |
---|---|---|---|
L | 10.68 | 10.68 | 0.00 |
A | 9.67 | 9.51 | 0.17 |
G | 7.34 | 7.37 | -0.02 |
V | 6.79 | 7.07 | -0.28 |
S | 6.54 | 5.80 | 0.74 |
I | 5.66 | 6.01 | -0.35 |
R | 5.57 | 5.52 | 0.05 |
D | 5.53 | 5.15 | 0.38 |
E | 5.50 | 5.76 | -0.26 |
T | 5.38 | 5.39 | -0.01 |
Q | 4.75 | 4.44 | 0.31 |
P | 4.58 | 4.43 | 0.15 |
N | 4.10 | 3.94 | 0.16 |
K | 3.98 | 4.41 | -0.42 |
F | 3.79 | 3.89 | -0.10 |
Y | 3.19 | 2.84 | 0.34 |
H | 2.31 | 2.27 | 0.04 |
M | 2.17 | 2.83 | -0.65 |
W | 1.49 | 1.53 | -0.04 |
C | 0.97 | 1.16 | -0.20 |
U | 0.0000 | 0.0002 | 0.0002 |
Содержание аминокислот в протеомах данных двух видов бактерий различается не сильно.
Три самых частых остатка в обоих протеомах одинаковые: лейцин, аланин и глицин.
Три самых редких остатка в протеоме Cellvibrio japonicus: метионин, триптофан и цистеин.
В протеоме Escherichia coli: гистидин, триптофан и цистеин. Кроме того, в протеоме E. coli
имеется селеноцистеин, однако его содержание совсем мало.
Самая больша разница в пользу E. coli - для остатка метионина (0.65%). В пользу C.japonicus - для
остатка серина (0.74%).
Программа compseq
Программа compseq для каждого слова данной длины подсчитывает число встреч, частоту,
ожидаемую частоту и отношение наблюдаемой и ожидаемой частот. По умолчанию считается,
что ожидаемые частоты одинаковые для всех слов.
Кроме того, команда выводит несколько первых ID последовательностей и общее число слов данной
длины.
Между синтаксисом программ wordcount и compseq существуют некоторые различия. Например, длина
слова задается разными опциями: -wordsize в случае wordcount, -word в случае compseq.
Думаю, для выполнения данного задания было бы удобнее использовать именно compseq.