Частоты остатков в протеомах

Таблица 1. Общие сведения о протеомах

Организм ID протеома Число последовательностей Число остатков
Escherichia coli K12 UP000000625 4306 1356086
Pedobacter saltans DSM 12145 UP000000310 3780 1370524

Таблица 2. Процент аминокислот в каждом протеоме

Аминокислотный остаток % у Pedobacter saltans DSM 12145 % у Escherichia coli K12 Разность
L 9.29 10.67 1.38
K 7.82 4.41 3.41
I 7.81 6.01 1.8
G 6.73 7.37 0.64
S 6.66 5.8 0.86
A 6.64 9.52 2.88
N 6.21 3.95 2.26
V 6.17 7.07 0.9
E 6.11 5.76 0.35
T 5.46 5.4 0.06
D 5.41 5.15 0.26
F 5.05 3.89 1.16
Y 4.28 2.85 1.43
R 3.73 5.51 1.78
P 3.51 4.43 0.92
Q 3.41 4.44 1.03
M 2.07 2.82 0.75
H 1.71 2.27 0.56
W 1.16 1.53 0.37
C 0.75 1.16 0.41

Самые часто встречающиеся аминокислотные остатки у Pedobacter saltans DSM 12145 - лейцин, лизин и изолейцин, у Escherichia coli K12 - лейцин, аланин и глицин. Наиболее редко у обоих организмов встречаются гистидин, триптофан и цистеин. максимальная разница как в процентном составе, так и в абсолютном числе в протеомах у лизина - 3.41% и 47486 остатков соответственно. Также у E.coli K12 присутствует селеноцистеин, который не вошел в таблицу.

Ссылка на Python-скрипт, использованный для получения данных

Команда запуска скрипта: python table.py *файл с выводом программы wordcount для протеома моей бактерии* *файл с выводов программы wordcount для протеома E.coli* *выходной файл*

Дополнительное задание

Команда на запуск программы compseq имеет следующий синтаксис: compseq *имя входного файла* -word *длина слова* -frame *сдвиг* *выходной файл*. Также возможны и другие параметры, однако наиболее примечателен флажок -frame, который определяет максимальную величину перекрывания слов, которая равна word-frame, т.е., если frame=word, то программа будет искать только неперекрывающиеся слова, что полезно при поисках, например, числа кодонов в последовательности. Также программа выводит некоторую информацию о протеоме в начале файла, а также дает информацию о частоте встречаемости слова, ожидаемую встречаемость слова, исходя из его длины, а также отношение этих двух частот. Выводит список слов по алфавиту, включая также слова с нулевой встречаемостью. Также можно отметить значительно более высокую скорость работу compseq по сравнению с wordcount при больших длинах слов. Насмотря на эти весомые преимущества, я использовал программу wordcount, так как она изначально выводит список в порядке убывания встречаемости, что значительно облегчило написание скрипта.


© Котюргин Александр, 2015